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角子 习 系 统 设 计 


数字 版权 声 明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 本 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ， 未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 民 知 
和 咒 悟 ， 与 我 们 共同 保护 知识 产 
权 。 

如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包 括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 退 究 法 律 
责任 。 


Willi Richert 


机 器 学 习 和 机 器 人 学 博士 ， 目 前 任职 于 微 
软 Bing 搜 索 核心 研发 团队 。 他 从 事 多 种 机 
器 学 习 领 域 的 研究 ， 包 括 主 动 学 习 和 统计 
机 兹 翻译 。 


Luis Pedro Coelho 

计算 生物 学 家 ， 主 要 关注 生物 图 像 信 息 学 
和 大 规模 图 像 数据 的 处 理 ， 致 力 于 生物 标 
本 图 像 分 析 中 机 器 学 习 技 术 的 应 用 ， 他 还 
是 Python 计算 机 视觉 库 mahotas 的 主要 开 
» 
2004 年 起 从 事 Python 开 发 ， 并 为 多 个 
Python 开源 库 贡 献 了 代码 。 另 外 ，Luis 拥 
有 机 器 学 习 领 域 世界 领先 的 卡 内 基 - 梅 隆 大 
学 的 博士 学 位 ， 并 发 表 过 多 篇 科学 论文 。 


刘 峰 

百度 LBS 地 图 基础 业务 部 资深 研发 工程 
师 ， 新 加 坡 南洋 理工 大 学 计算 机 工程 系 博 
士 ， 研 究 领域 包括 机 器 学 习 、 模 糊 神 经 网 
络 等 。2010 年 加 入 百度 ， 主 要 从 事 大 数据 
分 析 和 挖掘 方面 的 工作 ， 近 年 来 专注 于 无 
线 定位 、 用 户 轨 迹 等 LBS 大 数据 的 挖掘 及 
机 器 学 习 应 用 。 
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内 容 提 要 


本 书 是 实用 的 Python 机 如 学 习 教 程 ， 结 合 大 量 案 例 ， 介 绍 了 机 如 学 习 的 各 方面 知识 。 本 书 不 仅 告 诉 你 
“怎么 做 ”， 还 会 分 析 “ 为 什么 ”力求 帮助 读者 向 握 多 种 多 样 的 机 如 学 习 Python 库 ， 学 习 构 建 基于 Python 


的 机 如 学 习 系 统 ， 并 亲 里 实践 和 体验 机 如 学 习 系 统 的 功能 。 





本 书 适合 需要 机 絮 学 习 技 术 的 Python 开发 人 员 、 计 算 机 科学 研究 人 员 、 数 据 科 学 家 、 人 工 智能 程序 员 ， 


以 及 统计 程序 员 阅 读 参 考 。 
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在 眼花 冯 乱 的 互联 网 产品 背后 , 你 会 发 现 总 有 一 些 东 西 在 沙 于 下 面 内 内 发 光 , 它们 本 号 并 不 
是 产品 ， 却 能 把 令 人 和 慰 艳 的 产品 宙 到 你 我 面前 。 机 帮 学 习 技 术 束 是 这 样 一 种 宝贝 。 


如 果 在 十 年 前 ， 你 不 知道 机 融 学 习 ， 那 么 可 以 理解 ， 因 为 它 还 是 一 个 科研 实验 室 的 玩具 ; 如 
末 在 十 年 后 的 今天 ， 作 为 IT 从 业 人 员 的 你 ， 还 没有 上 昕 说 过 机 融 学 习 ， 那 么 你 真是 “ 奥 特 受 ” 了 本 。 


对 于 产品 来 说 ， 机 带 学 习 技术 的 应 用 ， 可 以 给 产品 带 来 质 的 飞跃 ， 提 高 产品 的 核心 范 争 力 ; 
对 于 IT 从 业 人 员 来 说 ， 机 融 学 习 技 术 已 经 成 为 了 一 种 必 备 的 技能 ， 等 握 了 它 ,， 可 以 在 各 大 IT 公司 
洲 刀 有 余 ， 个 人 价值 徒 增 。 


《机 融 学 习 系 统 设计 少 就 是 一 本 囊 你 在 机 融 学 习 海 洋 中 邀 洲 的 书 。 如 末 你 只 想 学 习 基 础 理论 ， 
那么 这 本 书 或 许 并 不 适合 你 。 它 并 没有 尝 入 机 硕 学 习 背 后 的 数学 细节 ， 而 是 通过 Python 这 样 一 种 
广泛 应 用 的 脚本 语言 ， 从 数据 处 理 ， 到 特征 工程 ， 青 到 模型 选择 ,把 机 器 学 习 解 决 实际 问题 的 过 
程 一 一 呈现 在 你 的 面前 。 这 本 书 的 最 大 特点 在 于 : 多 上 手 、 实 践 性 强 、 贴 近 应 用 。 它 可 以 让 你 在 
很 短 的 时 间 内 了 解 机 囊 学 习 的 基本 原理 ， 擎 握 机 融 学 习 工 具 ， 然 后 去 解决 实际 问题 。 从 文字 、 声 
音 到 图 像 ， 从 主题 模型 、 情 感 分 析 到 推荐 撤 术 ， 本 书 所 教 给 你 的 都 是 最 实际 的 技术 ， 让 你 从 一 个 
新 手 迅 速成 长 为 大 咖 。 

鉴于 详 者 水 平 有 限 ， 书 中 难免 有 错误 芷 漏 之 处 ， 欢 迎 旋 者 批评 指正 。 微 博 : @ 飞 旋 的 世界 。 
电子 邮箱 : gnefuil@sgmailcom。 
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我 要 感谢 我 的 妻子 Evangeline， 感 谢 她 一 直 以 来 无 尽 的 支持 。 我 也 要 感谢 我 的 朋友 
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Maurice HT Ling 在 墨尔本 大 学 获得 了 分 子 与 细胞 生物 学 学 士 学 位 〈 优 等 )， 以 及 生物 信息 学 
博士 学 位 。 他 目前 在 新 加 坡 南 洋 理工 大 学 担任 研究员, 同时 还 是 墨尔本 大 学 的 采 淮 研究 员 。 他 是 
The Python Papers Anthology 的 联合 主编 ， 也 是 新 加 坡 Python 用 户 组 的 联合 创 妈 人 ( 目 2010 年 起 担 
任 副 主席 一 职 )。 他 的 研究 兴趣 在 于 生命 一 一 生物 生命 、 人 工 生 命 以 及 人 工 智能 一 一 将 计算 机 科 
学 和 统计 学 作为 工具 来 理解 生命 以 及 它 的 诸多 方面 。 个 人 网 站 : http://maurice.vodien.com。 
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如 果 你 手 里 (或 者 你 的 电子 阅读 冀 里 ) 有 这 本 书 ， 可 以 说 ,这 是 一 个 注 运 的 巧合 。 毕 苋 ， 每 
年 有 几 百 万 天 图 书 印 刷 出 来 , 供 数 百 万 读者 阅读 ， 而 你 恰好 选择 了 这 一 本 。 可 以 说 , 正 是 机 融 学 
习 算 法 引领 你 来 阅读 这 本 书 〈 或 者 说 是 把 这 本 书 引领 到 你 面前 ) 而 我 们 作为 本 书 的 作者 ， 很 高 
兴 看 到 你 愿意 了 解 更 多 的 “怎么 做 ”和 “为 什么 ”。 

本 书 大 部 分 内 容 午 将 涉及 “怎么 做 ”。 例 如 ， 怎 么 处 理 数 据 才 能 让 机 各 学习 算法 最 大 限度 地 
利用 它们 ? 怎么 选择 正确 的 算法 来 解决 手头 的 问题 ? 

我 们 偶尔 也 会 涉及 “为 什么 ”。 例 如 ， 为 什么 正确 评估 很 重要 ? 为 什么 在 特定 情形 下 一 个 算 
法 比 为 一 个 算法 的 效果 更 好 ? 

我 们 知 直 ， 有 要 成 为 该 领域 的 专家 还 有 很 多 知识 要 和 学。 毕竟， 本 书 只 介绍 了 一 些 “ 怎 么 做 ”和 
极 小 一 部 分 “为 什么 ”。 但 在 最 后 ， 我 们 和 硕 望 这些 内 容 可 以 玫 你 “局 航 ”， 然 后 快速 前 行 。 


本 书 内 容 


第 1 草 通 过 一 个 非 和 简单 的 例子 介绍 机 融 学 习 的 基本 概念 。 尽 管 很 简单 ， 但 也 可 能 会 有 过 拟 
合 的 风险 ， 这 对 我 们 提出 了 挑战 。 


第 2 草 讲 解 了 使 用 真实 数据 解决 分 类 问题 的 方法 ， 在 这 里 我 们 对 计算 机 进行 训练 ， 使 它 能 够 
区 分 不 同类 型 的 花 朱 。 


第 3 草 讲 解 了 词 袋 方法 的 威力 ， 我 们 可 以 在 没有 真正 理解 帖子 内 容 的 情况 下 ， 用 它 来 寻找 相 
似 的 帖子 。 


第 4 章 让 我 们 超越 将 每 个 帖子 分 配给 单个 复 的 方式 。 由 于 真实 的 文本 可 以 处 理 多 个 主题 ， 我 
们 可 以 看 到 如 何 把 帖子 分 配 到 儿 个 主题 上 。 


第 5 草 讲 解 了 如 何 用 逻辑 回归 判定 用 户 的 答案 是 好 还 是 坏 。 在 这 个 情景 的 背后 ， 我 们 将 学 会 
用 偶 差 -方差 的 折 中 调试 机 需 学 习 模 型 。 


第 6 章 介绍 了 朴 系 贝 叶 斯 的 工作 原理 ， 以 及 如 何 用 它 对 推 文 进行 分 类 ， 来 判断 推 文中 的 情感 
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是 正面 的 还 是 人 负面 的 。 

第 7 革 讨 论 了 一 个 处 理 数据 的 经 典 课题 ， 但 它 在 今天 仍然 有 意义 。 我 们 用 它 构 建 了 一 个 推荐 
系统 ， 这 个 系统 根据 用 户 所 输入 的 豆 欢 和 不 豆 欢 的 信息 ， 为 用 户 推荐 新 的 商品 。 
第 8 章 同 时 使 用 多 种 方法 改进 推荐 效果 。 我 们 还 可 以 看 到 如 何 只 根据 购物 信息 构建 推荐 系统 ， 
而 不 需要 用 户 的 评分 数据 〈 用 户 并 不 总 会 提供 这 一 信息 )。 


第 9 章 举 例 说 明 ， 如 果 有 人 把 我 们 收集 而 成 的 庞大 音乐 库 弄 乱 了 ， 那 么 为 歌曲 建立 次 序 的 唯 
你 会 发 现 ， 有 时 信任 别人 的 专长 比 我 们 目 己 构建 特征 更 好 。 























一 希望 就 是 让 机 各 来 对 歌曲 分 类 。 
第 10 革 讲解 了 如 何在 处 理 图 像 这 个 特定 情景 下 应 用 分 类 方法 。 这 个 领域 又 叫做 模式 识别 。 


第 11 章 告诉 我 们 还 有 其 他 什么 方法 可 以 玫 我 们 精简 数据 ， 使 机 党 学 习 算 法 能 够 处 理 它 们 。 











第 12 草 讲解 了 不 断 膨 胀 的 数据 规模 ， 以 及 这 为 何 会 为 数据 分 析 造 成 难题 。 在 本 章 中 , 我 们 利 
用 多 核 或 计算 集群 ,探索 了 一 些 更 大 规模 数据 的 处 理 方法 。 为 外 ,我们 还 介绍 了 云 计 算 (将 亚 蕊 
逊 的 Web 服 务 当 做 云 计算 提供 两 )。 


附录 A 罗 列 了 一 系列 机 带 学 习 的 优质 资源 。 





阅读 需 郑 
本 书 假定 读者 了 解 Python， 并 且 知 道 如 何 利 用 easy instal1 或 pip 安 猴 库 文件 。 我 们 并 不 
依赖 于 任何 高 等 数学 知识 ， 如 微 积分 或 矩阵 代数 。 

总 体 而 言 ， 本 书 将 使 用 以 下 版 本 的 软件 ， 不 过 如 果 你 使 用 任何 新 近 版 本 ， 也 没有 问题 。 


DQ Python 2.7 

DQ NumpPy 1.6.2 

DQ SciPy 0.11 

DQ Scikit-learn 0.13 


读者 对 象 


本 书 适 合 想 通过 开源 库 来 学 习 机 器 学 习 的 Python 程序 员 阅 读 参 考 。 我 们 会 通过 示例 概述 机 器 


学 习 的 基本 模式 。 
本 书 也 适用 于 想 用 Python 构建 机 天 学 习 系 统 的 初学 者 。Python 是 一 个 能 够 快速 构建 原型 系统 
它 痛 后 的 算法 都 是 由 优化 过 的 C 或 C++ 编写 而 成 。 因 此 ， 它 的 代码 运行 快捷 ， 并 且 








的 灵活 语言 ， 
十 分 稳健 ， 完 全 可 以 用 在 实际 产品 中 。 


串 | 
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排版 约定 
当 你 阅读 本 书 时 ,会 发 现 书 中 有 各 式 各 样 的 文本 ,它们 用 来 区 分 不 同类 型 的 信息 。 下 面 是 这 
些 样式 文本 的 示例 以 及 相应 说 明 。 
正文 中 的 代码 是 这 样 的 : “我 们 可 以 通过 使 用 include 命 令 将 其 他 内 容 包含 进来 。 
代码 段 采 用 如 下 形式 : 


def nn movie(movie likeness, reviews, uid, mid): 














likes = movie likeness[mid] .argsort() 
# 逆序 排列 ， 使 最 受 喜 爱 的 电影 排 在 前 面 
likes = likes[::-1] 


# 返回 最 相似 电影 的 打分 
for ell in likes: 
If reviewsl[u,ell] > 0: 


return reviews[u,elll] 


如 果 我 们 想 让 你 注意 代码 段 的 特定 部 分 ， 就 会 用 粗 体 表示 相应 代码 行 或 条 


def nn movie (movie likeness, reviews, uid, mid): 





likes = movie 11Kkeness [mid] .argsort() 
# 逆序 排列 ， 使 最 受 喜 爱 的 电影 排 在 前 面 
likes = likes[::-1] 


# 返回 最 相似 电影 的 打分 
for ell in likes: 
If reviewsl[u,ell] > 0: 


return reviews[u,elll] 


新 的 术语 以 及 重要 文字 采用 楷体 字 。 你 在 屏幕 ( 如 菜单 或 者 对 话 框 ) 中 见 到 的 文字 这 样 出 现 
在 正文 中 :“ 点 击 Next 按 钮 以 进入 下 一 界面 。” 


| 这 里 给 出 重要 的 注意 事项 。 
a 提示 和 技巧 则 会 在 这 里 出 现 。 











我 们 一 贯 欢迎 谈 者 的 反馈 意见 。 请 告诉 我 们 你 对 本 书 的 看 法 ， 辟 欢 哪 些 部 分 ,不 豆 欢 哪些 部 
分 。 这 些 反 馈 对 于 协助 我 们 创作 出 真正 对 读者 有 所 和 神 益 的 内 容 全 关 重 要 。 


如 有 果 给 我 们 反馈 一 般 性 信息 , 你 可 以 发 送 电 子 邮 件 到 feedback@packtpub.com, 并 在 邮件 标题 








X 前 
中 注 明 书 名 。 如 果 你 是 某 一 方面 的 专家 并 愿意 参与 拟 稳 ， 请 访问 www.packtpub.com/authors 参 阅 
我 们 的 作者 指南 。 
客户 文 持 
现在 你 已 经 拥有 了 某 本 由 Packt 出 版 的 书 ， 为 了 让 你 的 付出 得 到 最 大 的 回报 ， 我 们 还 为 你 提 
供 了 其 他 许多 方面 的 服务 ， 请 注意 以 下 信息 。 
下 载 代 码 


如 果 你 是 通过 http://www.packtpub.com 的 注册 账户 购买 的 图 书 ， 可 以 从 该 账户 中 下 载 相应 
Packt 图 书 的 示例 代码 *"。 如 果 你 是 从 其 他 地 方 购买 的 本 书 ， 可 以 访问 http://www.packtpub.conm/ 
support 并 进行 注册 ， 我 们 将 会 为 你 发 送 一 封 附 有 示例 代码 文件 的 电子 邮件 。 


勘误 


虽然 我 们 会 全 力 确保 本 书 内 容 的 准确 性 ,但 错误 仍 在 所 难免 ,如 果 你 发 现 了 本 书 中 的 错误 ( 包 
括 文字 和 代码 错误 )， 而 且 愿 意 回 我 们 提交 这 些 错误 ， 我 们 感激 不 尽 。 这 样 一 来 ， 不 仅 可 以 减少 
其 他 读者 的 疑虑 , 也 有 助 于 改进 本 书后 续 版 本 ,要 提交 你 发 现 的 错误 , 请 访问 http:/www.packtpub. 
com/submit-errata， 选 择 相应 图 书 ， 点 击 errata submission form (提交 勘误 表 ”)， 登 记 你 的 勘误 
详情 。 勘 误 通 过 验证 之 后 将 上 传 到 Packt 网 站 ， 或 请 加 到 已 有 的 勤 误 列表 中 。 任 何 网 书 当 前 的 勘 
误 都 可 以 通过 http:/www.packtpub.com/support 来 查看 。 


举报 盗版 


对 所 有 媒体 来 说， 互联 网 盗版 都 是 一 个 杯 手 的 问题 。Packt 很 重视 版 权 保护 。 如 有 果 你 在 互联 
网 上 发 现 我 们 公司 出 版 物 的 任何 非法 复制 品 , 请 及 时 告知 我 们 相关 网 址 或 网 站 名 称 ， 以 便 我 们 采 
取 补 救 措 施 。 


如 果 发 现 可 疑 盗 版 材料 ， 请 通过 copyright@packtpub.com 联 系 我 们 。 
对 你 帮助 我 们 保护 作者 权益 、 确 保 我 们 持续 提供 高 品质 图 书 的 行为 表示 敬意。 
疑难 解答 
如 果 你 就 本 书 存 有 疑问 ， 请 发 送 电子 邮件 到 questions@packtpub.com， 我 们 会 尽力 解决 。 












































GD 读者 还 可 免费 注册 iTuring.cn， 至 本 书页 面 下 载 。 一 一 编者 注 
@) 中 文 版 的 勘误 请 注册 iTuring.cn， 至 本 书页 面 提交 。 一 一 编者 注 
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机 器 学 习 ( ML ) 就 是 教 机 货 目 己 来 完成 任务 ， 就 这 么 简单 。 复 杂 性 源 于 细节 ， 而 这 很 可 能 
就 是 你 要 读 这 本 书 的 原因 。 


也 许 你 现在 拥有 过 多 的 数据 , 却 对 这 些 数据 缺少 理解 ,你 希望 机 器 学 习 算法 可 以 帮助 解决 这 
个 难题 。 于 是 你 随机 找 了 一 些 算法 开始 铺 研 ， 但 过 了 一 段 时 间 就 感到 困惑 了 : 在 无 数 的 算法 中 应 
该 选择 哪 一 个 呢 ? 


或 许 你 笼统 地 对 机 带 学 习 感 兴趣 , 也 阅读 过 相关 的 博客 和 文章 。 机 带 学 习 中 的 任何 东西 看 起 
来 都 那么 不 可 思议 、 那 么 酷 , 所 以 你 开始 进行 探索 ,把 一 些 傈 单 的 数据 放 和 人 一 个 决策 树 或 者 一 个 
文 持 回 量 机 。 但 是 , 成功 将 它 应 用 到 一 些 其 他 数据 之 后 ,你 又 心 生 疑 恶 : 所 有 的 设置 都 正确 吗 ? 
你 得 到 最 优 的 结果 了 吗 ? 怎么 知道 有 没有 更 好 的 算法 ? 或 者 ， 你 的 数据 是 否 就 是 “正确 的 ”? 


欢迎 加 入 机 带 学 习 的 行列 ! 我 们 作为 本 书 的 作者 , 也 曾 处 在 这 个 阶段 ,寻找 过 机 可 学 习 理 论 
教材 彰 后 的 真实 故事 。 我 们 发 现 ， 很 多 东西 部 是 标准 教材 中 通 当 不 会 讲 到 的 “魔术 ”。 所 以 ， 从 
某 种 意义 上 说 , 我 们 在 把 这 本 书写 给 年 轻 的 目 己 。 它 不 仅 是 机 融 学 习 的 快速 入 门 书 ， 而 且 还 会 把 
我 们 积累 的 经 验 教训 传授 给 你 ,我 们 希望 它 还 可 以 让 你 更 顺畅 地 走 进 计算 机 科学 中 最 令 人 兴奋 的 
一 个 领域 。 









































1.1 区 之 队 : 机 器 学 习 与 Python 


机 知 学 习 的 目标 就 是 通过 奢 干 示例 ( 怎样 做 或 不 做 一 个 任务 ) 让 机 部 (软件 ) 学 会 完成 任务 。 
假设 每 天 早上 当 你 打开 电脑 ， 都 会 做 同样 的 事情 : 移动 电子 邮件 ,把 属于 茶 一 特定 主题 的 邮件 放 
入 同一 个 文件 夹 。 过 了 一 段 时 间 ， 你 感到 厌烦 了 ， 开 始 琢 麻 是 否 可 以 让 这 种 琐事 目 动 完成 。 一 种 
方法 是 分 析 你 的 大 脑 ,， 将 整理 电子 邮件 时 大 脑 思考 过 程 中 的 规则 记录 下 来 。 然 而 ,这 种 方式 相当 
肪 烦 ,而且 总 不 完美 。 你 会 汤 挥 一 些 规 则 ， 同 时 又 会 对 为 一 些 规则 细致 过 涉 。 为 一 种 更 好 的 、 更 
加 面 问 未 来 的 方法 是 将 这 个 过 程 日 动 化 ， 即 选择 一 组 电子 邮件 元 数据 信息 和 邮件 正文 /文件 夹 各 
对 ， 证 算法 据 此 选 出 最 好 的 规则 集 。 这 些 数 据 对 就 是 你 的 训练 数据 ， 而 生成 的 规则 集 〈 也 叫做 模 
型 ) 以 后 能 够 应 用 到 新 的 电子 邮件 上 。 这 就 是 最 简单 的 机 带 竺 习 。 
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当然 ， 机 硕 学 习 〈 也 生 称 作 数 据 挫 掘 或 预测 分 析 ) 本 吴 并 不 是 一 个 全 新 的 领域 。 正 相反 ,， 它 
这 些 年 来 的 成 功 可 以 归 因 于 务实 地 采用 了 已 经 验证 了 的 坚实 技术 , 以 及 借鉴 其 他 成 功 领域 的 真知 
灼 见 ,例如 统计 和 学。 统计 学 的 目的 是 通过 学 习 更 多 的 潜在 模式 和 关联 关系 ,来 帮助 人 类 深入 理解 
数据 。 对 机 楷 学 习 的 成 功 应 用 了 解 得 越 多 ( 你 已 经 查看 过 kaggle.com 了 吧 ? ), 越 会 发 现 应 用 统计 
学 是 机 需 学 习 专 家 经 向 研究 的 一 个 领域 。 


本 书后 面 将 会 介绍 ， 构 想 出 一 个 合适 的 机 硕 学 习 (ML ) 方法 ， 从 来 都 不 是 一 个 瀑布 式 的 过 
程 。 相 反 ， 你 需要 反复 分 析 , 在 各 色 各 样 的 机 硕 学 习 算 法 中 答 试 不 同 版 本 的 输入 数据 。 这 种 探索 
方式 非常 适合 Python。 作 为 一 门 解 释 性 高 级 编程 语言 ，Python 似 乎 就 是 专 为 答 试 不 同事 物 而 设计 
的 。 更 重要 的 是 ， 用 它 进 行 这 些 和 尝试 非常 迅捷 。 无 疑 ， 它 比 C 博 言 或 其 他 类 似 的 静态 类 型 编程 语 
言 要 慢 一 点 。 然 而 ,， 它 有 着 大 量 易 用 的 库 ， 而 这 些 库 往往 是 用 C 语 言 编写 的 ， 因 此 你 不 必 为 了 敏 
捷 性 而 牺牲 速 度 。 
































1.2 ”这 本 书 将 教 给 你 什么 (以 及 不 会 教 什么 ) 


本 书 将 全 面 展示 不 同 应 用 领域 正在 使 用 的 各 种 机 带 学 习 算法 ， 以 及 使 用 它们 时 应 当 注 意 什 
么 。 然 而 ， 根 据 亲 号 经 验 ， 我 们 知 拓 做 这 些 很 “ 酷 ” 的 事 一 一 使 用 和 调整 机 天 学 习 算 法 ， 比 如 支 
持 向 量 机 (SVM )、 最 邻近 搜索 ( NNS ), 或 者 同时 支持 两 者 一 一 其 实 只 需要 耗费 一 位 优秀 机 带 学 
习 专 家 的 一 点 儿 时 间 。 看 看 下 面 这 个 典型 的 工作 流程 ,你 束 会 发 现 绝 大 部 分 时 间 将 花费 在 一 些 相 
当 平凡 的 任务 上 : 


(1) 读 取 和 清洗 数据 ; 

(2) 探索 和 理解 输入 数据 ; 

(3) 分 析 如 何 最 好 地 将 数据 呈现 给 学 习 算 法 ; 
(4) 选择 正确 的 模型 和 学 习 算 法 ; 

(5) 正确 地 评估 性 能 。 


在 探索 和 理解 输入 数据 的 时 候 ， 我 们 需要 一 点 统计 学 和 基础 数学 知识 。 但 当 这 样 做 的 时 
候 ， 你 会 发 现 ， 这 些 数 学 诛 上 似乎 十 分 顶 煤 的 知识 ， 用 来 处 理 有 趣 的 数据 时 ， 其 实 真 的 很 令 人 




















解读 数据 标志 着 旅程 的 开始 。 你 面 对 诸如 无 效 值 或 缺失 值 的 问题 时 ,会 发 现 这 更 像 是 一 种 技 
艺 而 非 一 门 精确 的 科学 。 这 是 一 种 非常 有 益 的 技艺 ， 因 为 如 果 这 部 分 做 得 正确 , 那么 你 的 数据 就 
能 够 适应 更 多 的 机 器 学 习 算 法 ， 从 而 成 功 的 可 能 性 大 大 提高 。 

数据 在 程序 的 数据 结构 中 就 绪 之 后 ,你 要 清楚 自己 正在 跟 何 方 神圣 打交道 。 你 有 足够 的 数据 
来 回答 自己 的 问题 吗 ” 如 果 没 有 ， 也 许 应 当 考 虑 通过 额外 的 途径 来 获取 一 些 。 或 许 你 的 数据 过 
多 ? 那么 你 可 能 要 考虑 怎样 最 有 效 地 从 中 抽取 样本 。 
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你 通 帝 不 会 和 接 将 数据 输入 机 硕 学 习 算 法 ， 而 是 在 训练 前 对 部 分 数据 进行 提炼 。 很 多 时 
候 ， 使 用 机 需 学 习 算 法 会 让 你 得 到 性 能 提升 的 回报 。 一 个 简单 算法 在 提炼 后 数据 上 的 表现 ， 
其 至 能 够 超过 一 个 非常 复 洒 的 算法 在 原始 数据 上 的 效 采 。 这 部 分 机 各 学 习 流 程 叫 做 特征 工程 
( feature engineering )， 通 常 是 一 个 非常 令 人 兴奋 的 有 意思 的 挑战 。 你 有 创 音 和 和 借 甘 ， 便 会 立 
即 看 到 结 


选择 正确 的 学 习 算 法 并 不 只 是 答 试 一 下 工具 箱 中 的 三 四 个 算法 那么 简单 ( 工具 箱 中 会 有 很 多 
的 算法 )。 它 更 需要 的 是 次 思 束 大 ， 来 权衡 性 能 和 功能 的 不 同 需求 。 你 是 人 否 会 为 了 快速 得 到 结 采 
而 牺牲 质量 , 还 是 愿意 投入 更 多 的 时 间 来 得 到 最 好 的 结果 ?你 是 否 对 未 来 的 数据 有 一 个 清晰 的 认 
识 ， 还 是 应 该 在 这 方面 更 保守 一 点 ? 


最 后 ， 性 能 评 信 和 是 怀 有 远大 抱负 的 机 带 学 习 初 学 者 最 第 犯错 误 的 地 方 。 有 一 些 简 单 的 错误 ， 
比如 使 用 了 与 训练 相同 的 数据 来 测试 你 的 方法 。 但 还 有 一 些 比较 难 的 , 例如 ,你 使 用 了 不 平衡 的 
训练 数据 。 再 说 一 次 ， 数 据 决定 了 你 的 任务 是 成 功 还 是 失败 。 


我 们 看 到 ， 只 有 第 (4) 点 是 关于 那些 花哨 的 算法 的 。 虽 然 如 此 ， 和 硕 望 这 本 书 可 以 使 你 相信 ， 
羽 外 4 个 任务 并 不 是 简单 的 杂 务 ,它们 同等 重要 ， 或 许 还 更 加 令 人 兴奋 。 我 们 而 望 谈 过 本 书 之 后 ， 
你 可 以 真正 爱 上 数据 ， 而 非 学 到 的 算法 。 


最 后 ,我 们 并 不 想 让 机 末 学 习 算 法 的 理论 把 你 压境 ,因为 这 方面 已 经 有 很 多 优秀 的 若 作 厂 可 
以 在 附录 A 中 找到 我 们 的 推荐 )。 相 反 ， 我 们 会 在 各 市 中 和 直观 地 介绍 各 种 基础 方法 一 一 这 对 于 你 
大 致 理解 其 中 的 思想 已 经 足够 了 , 并 且 能 够 确保 你 走 好 第 一 步 。 因 此 , 这 本 书 并 不 是 机 带 学 习 “ 权 
威 指南 ”， 而 更 像 是 初学 者 的 工具 。 我 们 布 望 它 能 够 激发 你 的 好 奇 心 ， 并 足以 让 你 保持 光 望 ， 不 
靳 探索 这 个 有 趣 的 领域 。 


在 本 草 的 余下 部 分 ， 我 们 将 着 手 介 绍 Python 的 基础 库 NumPy 和 SciPy， 并 且 使 用 Scikit-learn 
进行 第 一 个 机 器 学 习 训 练 。 同 时 我 们 将 介绍 基本 的 ML 概念 ， 它 们 稍 后 将 贯穿 于 全 书 。 本 书 余下 
的 各 草 会 详细 讲述 之 前 介绍 的 5 个 步 又 ， 同 时 突出 介绍 使 用 Python 的 机 需 学 习 方法 在 各 种 应 用 场 
景 中 的 不 同方 面 。 






















































































1.3 ” 遇 到 困难 的 时 候 怎么 办 

本 书 中 , 我 们 会 试图 讲 清楚 每 一 个 必要 的 想法 ， 保 证 你 能 重 现 各 个 步 又。 虽然 如 此 ,你 仍然 
可 能 会 过 到 困难 。 其 原因 可 能 是 软件 包 版 本 的 古怪 组 合 ， 可 能 是 简单 的 拼写 错误 , 也 可 能 是 理解 
上 的 问题 。 

在 这 种 情况 下 ,可 以 通过 很 多 不 同 的 途径 来 获取 帮助 。 很 有 可 能 , 你 想 问 的 问题 早已 有 人 所 
出 ， 而 且 下 面 这 些 优 质 的 问答 网 站 已 经 给 出 了 答案 。 
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DQ http://metaoptimize.com/gqa 
这 个 问答 网 站 专注 于 机 和 融 学 习 主 题 。 几 乎 所 有 的 问题 都 会 得 到 机 和 硕 学 习 专 家 的 局 水 平 解 
答 。 即 使 你 并 没有 问题 ， 不 时 地 翻阅 这 些 问答 也 是 一 个 很 好 的 习惯 。 








DQ http://stats.stackexchange.com 
这 个 问答 网 站 又 叫 交 义 验 证 (Cross Validated )， 和 MetaOptimized 相 似 , 但 它 更 专注 于 统计 
方面 的 问题 。 





DQ http://stackoverflow.com 
这 个 问答 网 站 与 前 面 的 相似 , 但 还 会 更 宽泛 地 讨论 一 些 篆 规 的 编程 主题 。 例 如 ,一些 软件 
包 的 问题 ， 这 些 我 们 也 会 在 本 书 中 提 到 ( SciPy 和 Matplotlib )。 











口 Freenode 的 #machinelearning 频 道 
这 个 互联 网 中 转 聊 天 ( IRC ) 频道 专门 讨论 机 需 学 习 主 题 。 这 是 个 机 融 学 习 方 面 的 专业 社 
区 ， 虽 然 很 小 ,但 是 非常 活跃 ， 十 分 有 用 。 





DQ http:/www.TwoToReal.com 
这 是 由 本 书 作者 制作 的 一 个 即时 间 答 网 站 , 来 为 你 解答 不 适 于 上 述 任何 网 站 的 问题 。 如 末 
你 提交 了 一 个 问题 , 我 们 将 会 收 到 一 条 即时 消息 ; 只 要 我 们 当中 有 人 在 线 , 束 会 与 你 交谈 
解决 。 
正如 一 开始 所 述 ,本 书 试 图 帮助 你 快速 开始 机 带 学 习 之 旅 。 因此, 我 们 训 励 你 构建 自己 的 机 
船 学 习 相 关 博 客 的 列表 ， 并 且 定 期 查阅 。 这 是 去 了 解 什么 可 行 、 什 么 不 可 行 的 最 佳 方式 。 


在 这 里 , 唯一 要 着 重 指出 的 博客 是 http:/blog.kaggle.com。 这 是 举办 过 很 多 次 机 器 学 习 比 赛 的 
Kaggle 公 司 维护 的 博客 ( 在 附录 A 里 可 以 找到 更 多 链接 )。 通 笛 ， 他 们 茧 励 比赛 优胜 选手 写 文 草 ， 
详细 介绍 他 们 是 怎样 春 手 解决 难题 的 ,什么 样 的 策略 不 可 行 , 以 及 他 们 是 怎样 想 出 获胜 的 策略 的 。 
如 果 你 不 想 读 其 他 的 东西 ， 没 问题 ， 但 这 个 必须 读 。 


1.4 开始 


如 有 果 你 已 经 安装 了 了 Python (2.7 或 更 高 版 本 ), 那么 还 需要 安装 NumPy 和 SciPy 来 处 理 数据 ， 并 
需要 安装 Matplotlib 对 数据 进行 可 视 化 。 



































1.4.1 NumPy、SciPy 和 Matplotlib 简 介 


在 讨论 具体 的 机 带 学 习 算 法 之 前 ， 必 须 说 一 下 如 何 最 好 地 存储 需要 处 理 的 数据 。 这 很 重要 ， 
因为 多 数 蜗 级 学 习 算法 ， 如果 运行 永远 不 会 结束 ， 对 我 们 受 无 用 处 。 这 可 能 仪 仪 是 因为 数据 访问 
太 慢 了 , 也 可 能 是 因为 这 些 数据 的 表示 方式 迫使 操作 系统 一 直 做 数据 交换 。 再 加 上 Python 是 一 种 
解释 性 语言 ( 尽管 是 高 度 优化 过 的 )， 和 C 或 者 Fortran 相 比 ,这 类 语言 对 很 多 重 数值 算法 来 说 运行 
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缓慢 。 所 以 或 许 应 该 问 一 问 完 竟 为 什么 有 这 么 多 科学 家 和 公司 ,甚至 在 高 度 
赌 Python O 


答案 就 是 ,在 Python 中 很 容易 把 数值 计算 任务 交 给 下 层 的 C 或 Fortran 扩 展 包 ,这 也 正 是 NumPy 
和 SciPy 要 做 的 事情 ( http://scipy.org/install.html )。 在 NumPy 和 SciPy 这 个 组 合 中 , NumPy 提 供 了 对 
高 度 优化 的 多 维 数 组 的 支持 ， 而 这 正 是 大 多 数 新 式 算法 的 基本 数据 结构 。SciPy 则 通过 这 些 数组 
提供 了 一 套 快 速 的 数值 分 析 方 法 库 。 最 后 ， 用 Python 来 绘制 高 品质 图 形 ，Matplotlib 
( http://matplotlib.org/ ) 也 许 是 使 用 最 方便 、 功 能 最 丰富 的 程序 库 了 。 





1.4.2 ”安装 Python 


斑 运 的 是 ,所 有 主流 操作 系统 , 如 Windows、Mac 和 Linux, 都 有 和 针对 NumPy、SciPy 和 Matplotlib 
的 安 痰 程序 。 如 果 你 对 安 痰 过 程 不 是 很 清楚 ,那么 可 能 就 需要 安 狐 Enthought Python 发 行 版 
( https:/www.enthought.com/products/epd free.php ) 或 者 Python(x,y) ( http://code.google.com/p/ 
pythonxy/wiki/Downloads )， 而 这 些 已 经 包含 在 之 前 提 到 过 的 程序 包 里 了 。 














1.4.3 ”使 用 NumPy 和 SciPy 智 能 高 效 地 处 理 数 据 


让 我 们 快速 浏览 一 下 NumPy 的 基础 示例 ， 然 后 看 看 SciPy 在 NumPy 之 上 提供 了 哪些 东西 。 在 
这 个 过 程 中 ， 我 们 将 开始 使 用 Matplotlib 这 个 非凡 的 工具 包 进 行 绘图 。 

你 可 以 在 http:/www.scipy.org/Tentative NumPy Tutorial 上 找到 NumPy 所 提供 的 更 多 有 趣 
示例 。 


你 也 会 发 现 由 Ivan Idris 所 车 的 《Python 数据 分 析 基 础 教程 : NumPy 学 习 指 南 〈 第 2 版 )》 非常 
有 价值 。 你 还 可 以 在 http:/scipy-lectures.github.com 上 找到 辅导 性 质 的 指南 ， 并 到 http://docs. 
scipy.org/doc/scipy/reference/tutorial 访 问 SciPy 的 官方 教程 。 


在 本 书 中 ， 我 们 使 用 1.6.2 版 本 的 NumPy 和 0.11.0 版 本 的 SciPy。 





1.4.4 字 习 NumPy 
让 我 们 引入 NumPy， 并 小 试 一 下 。 对 此 ， 需 要 打开 Python 交互 界 面 。 


>>> import numpy 
>>> numpy.version.full_ version 
1.6.2 


由 于 我 们 并 不 想 破 坏 命 名 空间 ， 所 以 肯定 不 能 做 下 面 这 样 的 事情 : 


>>> from numpy import * 
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这 个 numpy .array 数 组 很 可 能 会 遮挡 住 标准 Python 中 包含 的 数组 模块 。 相 反 ， 我 们 将 会 采 
用 下 面 这 种 便捷 方式 : 


>>> import numpy as np 

>>> a = np.array (|[0,1,2,3,4,5]) 
>>> a 

array([0, 1, 2, 3, 4, 5]) 

>>> a.ndim 

1 

>>> a.shape 

(6,) 


这 里 只 是 采用 了 与 在 Python 中 创建 列表 相 类 似 的 方法 来 创建 数组 。 不 过 , NumPy 数 组 还 包含 
对 多 关于 数组 形状 的 信息 。 在 这 个 例子 中 ， 它 是 一 个 含有 5 个 元 系 的 一 维 数 组 。 到 目前 为 止 ， 并 
没有 什么 令 人 惊奇 的 。 


现在 我 们 将 这 个 数组 转换 到 一 个 2D 和 窍 阵 中 : 








>>> b = a.reshape( (3,2)) 
>>> b 
array([[0, 1], 
[2, 3], 
[4, 5]1]) 
>>> b.ndim 
2 
>>> b.shape 
(3, 2) 


当 我 们 意识 到 NumPy 包 优化 到 什么 程度 时 , 有 趣 的 事情 发 生 了 。 比 如 , 它 在 所 有 可 能 之 处 都 
避免 复制 操作 。 


>>> bl1][0]=77 





>>> b 

array([[ 0, 1], 
[77, 3], 
[ 4, 5]]) 

>>> a 


array([ 0, 1, 77, 3, 4, 5]) 


在 这 个 例子 中 ,我 们 把 p 的 值 从 ?2 改 成 77， 然 后 立刻 就 会 发 现 相 同 的 改动 已 经 反映 在 a 中 。 当 
你 需要 一 个 真正 的 副本 时 ， 请 记 住 这 个 。 








>>> C = a.reshape((3,2)) .copy() 
>>> c 
array([[ 0, 1], 
[77, 3], 
[ 4, 5]]) 
>>> c[0][0] = -99 
>>> a 
array([ 0, 1, 77, 3, 4, 5]) 
>>> c 


array([[-99, 1], 
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[| 777 33]; 
上 村 .113 


这 里 ，c 和 a 是 完全 独立 的 副本 。 
NumPy 数 组 还 有 一 大 优势 ， 即 对 数组 的 操作 可 以 传递 到 每 个 元 素 上 。 


>>> a*2 

array([ 2, 4, 6, 8, 10]) 

>>> a**2 

array([ 1, 4, 9, 16, 25]) 

Contrast that to ordinary Python lists: 
>>> [1,2,3,4,5]*2 

[1; 2 BG dd; 5 ly 2, 3 4; 5| 

>>> [1,2,3,4,5]**2 

Traceback (most recent call last): 








File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for xx or pow(): 'list' and 
'int' 


当然 ,我 们 在 使 用 NumPy 数 组 的 时 候 会 策 牲 Python 列表 所 提供 的 一 些 敏 捷 性 。 像 相 加 、 删 除 
这 样 的 简单 操作 在 NumPy 数 组 中 会 有 一 点 砍 烦 。 坪 运 的 是 , 这 两 种 方式 都 可 以 使 用 。 我 们 可 以 根 
据 手 头 上 的 任务 来 选择 最 适合 的 那 种 。 





1. 索引 
NumPy 的 部 分 威力 来 日 于 它 的 通用 数组 访问 方式 。 
除了 正和 党 的 列表 索引 方式 ， 它 还 允许 我 们 将 数组 本 吴 当 做 索引 使 用 。 


>>> alnp.array ([2,3,4])1]1 
array([77, 3, 4]) 


除了 判断 条 件 可 以 传递 到 每 个 元 素 这 个 事实 ， 我 们 得 到 了 一 个 非常 方便 的 数据 访问 方法 。 


>>> a>4 


array([False, False, True, False, False, Truel], dtype=lbool) 
>>> ala>4|] 
array([77, 5]) 


这 还 可 用 于 修 毅 寞 弟 值 。 


>>> ala>4] = 4 
>>> a 
array([0, 1, 4, 3, 4, 41]) 


鉴于 这 是 一 个 经 稼 碰 到 的 情况 , 所 以 这 里 有 一 个 专门 的 修 术 函 数 来 处 理 它 。 如 下 面 的 也 数 调 
用 所 示 ， 它 将 数组 值 超 出 菏 个 区 间 边 界 的 部 分 修 吗 挥 。 

















>>> a.clip(0,4) 
array([0, 1, 4, 3, 4, 41]) 
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2. 处 理 不 存在 的 值 


当 我 们 预 处 理 刚 从 文本 文件 中 读 出 的 数据 时 , NumPy 的 索引 能 力 就 派 上 用 场 了 。 这 些 数据 中 
很 可 能 包含 不 合法 的 值 ， 我 们 像 下 面 这 样 用 numpy .NAN 做 标记 ， 来 表示 它 不 是 真实 数值 。 


c = np.array([1，2,， np.NAN，3，4]) # 假设 已 经 从 文本 文件 中 读 取 了 数据 
> 2 





array([ 1., 2., nan, 3., 4.]) 

>>> np.isnan(c) 

array([False, False, True, False, Falsel], dtype=lbool) 
>>> c[~np.isnan(c)] 

array([ 1., 2., 3., 4.]) 

>>> np.mean(c[~np.isnan(c)]) 

2.5 


3. 运行 时 行为 比较 


让 我 们 比较 一 下 NumPy 和 标准 Python 列表 的 运行 时 行为 。 在 下 面 这 些 代 码 中 , 我 们 将 会 计算 
从 1 到 1000 的 所 有 数 的 平方 和 ， 并 观察 这 些 计算 花费 了 多 少时 间 。 为 了 使 评估 足够 准确 ， 我 们 重 
复 做 了 10 000 次 ， 并 记录 下 总 时 间 。 


import timeit 


normal py_sec = timeit.timeit('sum(x*x for x in xrange(1000))', 
number=10000) 
naive np_sec = timeit.timeit('sum(na*na)', 


setup="import numpy as np; na=np.arange(1000)", 
number=10000) 

good np_sec = timeit.timeit('na.dot (na)', 
setup="import numpy as np; na=np.arange(1000)", 
number=10000) 


print ("Normal Python: %f sec"%normal py_sec) 
print ("Naive NumPy: %f sec'"%naive np_sec) 
print ("Good NumPy: %f sec"%good np_sec) 


Normal Python: 1.157467 sec 
Naive NumPy: 4.061293 sec 
Good NumPy: 0.033419 sec 


我 们 观察 到 两 个 有 趣 的 现象 。 首 先 ， 仪 用 NumPy 作 为 数据 存储 ( 原始 NumPy ) 时 ， 花费 的 
时 间 苋 然 是 标准 Python 列 表 的 3.5 信 。 这 让 我 们 感到 非常 惊奇 , 因为 我 们 原本 以 为 既然 它 是 C 扩 展 ， 
那 肯 定 要 快 得 多 。 对 此 ,一 个 解释 是 ， 在 Python 中 访问 个 体 数 组 元 素 是 相当 耗 时 的 。 只 有 当 我 们 
在 优化 后 的 扩展 代码 中 使 用 一 些 算法 之 后 ,才能 获得 速度 上 的 提升 。 一 个 巨大 的 提升 是 : 当 使 用 
NumPy 的 aot () 函数 之 后 ， 可 以 得 到 25 倍 的 加 速 。 总 而 言 之 ， 在 要 实现 的 算法 中 ,应 该 时 笛 考 感 
如 何 将 数组 元 系 的 循环 处 理 从 Python 中 移 到 一 些 高 度 优化 的 NumPy 或 SciPy 扩 展 少 数 中 。 


然而 ,速度 也 是 有 代价 的 。 当 使 用 NumPy 数 组 时 ,我 们 不 再 拥有 像 Python 列表 那样 基本 上 可 
以 疙 下 任何 数据 的 不 可 思议 的 灵活 性 。NumPy 数 组 中 只 有 一 个 数据 类 型 。 
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>>> a = np.array([1,2,3]) 
>>> a.dtype 
dtype('int64') 


如 果 尝 试 使 用 不 同类 型 的 元 系 ，NumPy 会 尽量 把 它们 强制 转换 为 最 合理 的 第 用 数据 类 型 . 





> HD array( ll, “strinty"]) 

array(["l1', "stringy’], dtype="|S8") 

>>> np.array ([1, "stringy", set([1,2,3])]) 
array([1, stringy, set([1, 2, 3])], dtype=object) 


1.4.5 ”学 习 SciPy 


在 NumPy 的 局 效 数据 结构 之 上 ，SciPy 提 供 了 基于 这 些 数组 的 算法 级 应 用 。 本 书 中 任何 一 个 
数值 分 析 方 面 的 重 数 值 算 法 ,你 都 可 以 在 SciPy 中 找到 相应 的 支持 。 无 论 是 矩阵 运算 、 线 性 代数 、 
最 优化 方法 、 凤 类、 空间 运算 ,还 是 快速 传 里 叶 变 换 ， 都 时 括 在 这 个 工具 包 中 了。 因此 在 实现 数 
值 算 法 之 前 先 查看 一 下 SciPy 模 块 ， 是 一 个 好 习惯 。 


为 了 方便 起 见 ，NumPy 的 全 部 命名 空间 都 可 以 通过 Scipy 访 问 。 因 此 从 现在 开始 ， 我 们 会 在 
SciPy 的 命名 空间 中 使 用 NumPy 的 函数 。 通 过 比较 这 两 个 基础 郴 数 的 引用 ， 很 容易 就 可 以 进行 验 
证 ， 例 如 : 














>>> import scipy, numpy 

>>> scipy.version.full_ version 
0.11.0 

>>> scipy.dot is numpy.dot 
TrIue 


各 种 各 样 的 算法 被 分 组 到 下 面 这 个 工具 包 中 : 








SciPy 工 具 包 功能 
cluster 层次 聚 类 (cluster.hierarchy) 
矢量 量化 /KK 均 值 (cluster .vg) 
constants 物理 和 数学 常量 
转换 方法 
Eftpack 离散 传 里 叶 变 换算 法 
sane del 积分 例 程 
interpolate 插值 (线性 的 、 三 次 方 的 ， 等 等 ) 
io 数据 输入 和 输出 
limalg 采用 优化 BLAS 和 LAPACK 库 的 线性 代数 函数 
maxentropy 最 大 焕 模 型 的 冰 数 
ndimage n 维 图 像 工 具 包 
odr 正 交 距离 回归 
optimize 最 优化 (寻找 极 小 值 和 方程 的 根 ) 


signal 信号 处 理 
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( 续 ) 
SciPy 工 具 包 功 能 
sparse 稀 玻 和 矩阵 
spatial 空间 数据 结构 和 算法 
Special 特殊 数学 函数 如 贝 塞 尔 函 数 (Bessel) 或 雅 可 比 函数 (Jacobian) 
stats 统计 学 工具 包 





其 中 我 们 最 感 兴趣 的 是 scipy. stats、 scipy.interpolate、 scipy. cluster 和 scipy. 
signal。 为 了 简单 起 见 ， 我 们 将 会 简要 地 探索 stats 包 的 一 些 特性 ， 而 其 余 的 则 在 它们 各 自 出 
现 的 革 中 进行 解释 。 





1.5 ”我 们 第 一 个 〈 极 小 的 ) 机 器 学 习 应 用 


让 我 们 亲自 体验 一 下 , 看 一 看 我 们 假想 的 互联 网 创业 公司 MLAAS。 它 通 过 HTTP 回 用 户 推销 
机 需 学 习 算 法 服务 。 但 随 着 公司 不 断 取得 成 功 ， 要 为 所 有 Web 访 问 请 求 都 提供 优质 服务 ， 就 需要 
具备 更 好 的 基础 设施 。 我 们 并 不 愿意 分 配 过 多 的 资源 ， 因 为 这 些 资源 非常 昂贵 。 另 一 方面 ， 如 果 
没有 足够 的 资源 来 为 所 有 请 求 提供 服务 , 我 们 也 将 会 赔钱 。 现 在 的 问题 是 , 我们 何 时 会 到 达 目 前 
基础 设施 的 极限 。 这 个 极限 我 们 估计 是 每 小 时 100 000 个 请 求 。 我 们 希望 事先 知道 什么 时 候 不 得 
不 申请 更 多 的 云端 服务 器 来 服务 于 所 有 请 求 ， 同 时 不 必 为 未 使 用 的 服务 右 承 担 费 用 。 





























1.5.1 读 取 数据 


我 们 已 经 收集 了 上 个 月 的 Web 统 计 信 息 , 并 把 它们 汇聚 到 了 ch01/data/web_traffic.tsv( 因为 tsv 
包含 以 Tab 字 符 分 制 的 数字 ),。 它们 存储 着 每 小 时 的 访问 次 数 。 每 一 行 包含 连续 的 小 时 信息 ,以 及 
该 小 时 内 的 Web 访 问 次 数 。 


文件 前 面 儿 行 如 下 图 所 示 : 
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使 用 SciPy 的 genfromtxt () 很 容易 读 取 数据 。 


import scipy as sp 
data = sp.genfromtxt ("web traffic.tsv", delimiter="\t") 


必须 使 用 Tab 作 为 分 隅 人 符 ， 确 保 可 以 正确 读 取 各 个 列 的 数据 。 
经 快速 检验 显示 ， 我 们 已 经 正确 地 恋 取 了 数据 。 


>>> print (data[:10]) 





[[ 1.00000000e+00 2.27200000e+03] 
[ 2.00000000e+00 nan ] 
[ 3.00000000e+00 1.38600000e+03] 
[ 4.00000000e+00 1.36500000e+03] 
[ 5.00000000e+00 1.48800000e+03] 
[ 6.00000000e+00 1.33700000e+031] 
[ 7.00000000e+00 1.88300000e+03] 
[ 8.00000000e+00 2.28300000e+03] 
[ 9.00000000e+00 1.33500000e+03] 
[ 1.00000000e+01 1.02500000e+03]] 


>>> print (data.shape,) 
(743, 2) 


我 们 有 743 个 二 维 数 据点 


1.5.2” 预 处 理 和 清洗 数据 


在 SciPy 中 ， 为 了 处理 起 来 更 加 便利 ,我们 将 各 维度 分 成 两 个 向 量 ， 其 中 每 个 向 量 的 大 小 是 
743。 第 一 个 丫 量 x 包含 小 时 信息 ， 而 为 一 个 向 量 y 包 含 某 个 小 时 内 的 Web 访 问 数 。 这 个 切 分 过 程 
是 通过 我 们 选择 的 某 些 列 ， 由 SciPy 的 特殊 索引 标记 来 完成 的 。 


data[:,0] 
datal[:,1] 





这 里 还 有 很 多 从 SciPy 数 组 中 选取 数据 的 方法 。 可 以 在 http://www.scipy.org/ 
Tentative NumPy_Tutorial 上 查看 更 多 关于 有 索引 ( indexing )、 切 割 ( slicing ) 和 枕 
代 (iterating ) 的 详情 





需要 说 明 的 是 , y 中 仍然 有 一 些 项 包含 了 无 效 值 nan。 但 问题 是 , 该 如 何 处 理 这 些 无 效 值 呢 ? 
让 我 们 看 一 下 有 多 少 小 时 的 数据 中 包含 了 无 效 值 。 


>>> sp.sum(sp.isnan(y)) 
8 


我 们 看 到 743 个 项 中 只 有 8 个 值 缺失 了 , 因此 把 它们 删除 是 可 以 承受 的 。 记 住 ,我 们 能 够 用 另 
一 个 数组 来 索引 SciPy 的 数组 。sp .isnan(y) 返 回 一 个 布尔 型 的 数组 ， 用 来 表示 某 个 数组 项 中 的 
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内 容 是 否 是 一 个 数字 。 我 们 可 以 使 用 ~ 在 逻辑 上 对 数组 取 反 ， 使 我 们 可 以 在 x 和 y 中 只 选择 y 值 合 


法 的 项 。 


xX 
YY 


x[~sp.isnanl(y)] 
yl~sp.1snan(y)] 


为 了 获得 对 数据 的 第 一 印象 ， 让 我 们 用 Matplotlib 在 散 点 图 上 将 数据 画 出 来 。Matplotlib 包 含 
了 pyplot 包 ， 它 模仿 了 Matlab 的 接口 一 一 一 个 非常 方便 和 史 用 的 接口 。( 你 可 以 在 http://matplotlib. 
org/users/pyplot tutorial.html 上 看 到 更 多 画图 方面 的 教程 。) 








import matplotlib.pyplot as plt 

















plt.scatter (x,y) 
plt.title("Web traffic over the last month") 
plt.xlabel ("Time") 
plt.ylabel ("Hits/hour") 
plt.xticks([w*7*24 for w In range(10)], 
['week %i'%$w for w in range(10)]) 
plt.autoscale (tight=True) 
plt.grid() 
plt.show!() 
在 绘 出 的 图 上 , 可 以 看 到 虽然 前 面 儿 个 星期 的 流量 差不多 相同 , 但 最 后 那个 星期 呈现 出 显 车 
上 升 的 趋势 。 
Web traffic over the last month 
week 2 
Time 
A TA 人 ES 
1.5.3 选择 正确 的 模型 和 学 习 算 法 


现在 我 们 已 经 对 数据 有 了 一 个 初步 印象 , 那么 回 到 起 初 的 问题 : 服务 从 要 用 多 长 时 间 来 处 理 
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进来 的 web 流量 呢 ? 要 回答 这 个 问题 ， 必 须 先 做 到 以 下 两 点 : 


口 找到 有 了 品 数 据 育 后 真正 的 模型 ; 
口 使 用 这 个 模型 预测 未 来 ， 以 便 及 时 找到 我 们 的 基础 设施 必须 扩展 的 地 方 。 


1. 在 构建 第 一 个 模型 之 前 


谈 到 模型 ,你 可 以 把 它 想象 成 对 复杂 现实 世界 的 简化 的 理论 近似 。 它 总 会 包含 一 些 劣 质 内 容 ， 
而 这 又 叫做 近似 误差 。 这 个 误差 将 指引 我 们 在 无 数 选择 中 寻找 正确 的 模型 。 我 们 用 模型 预测 值 到 
真实 值 的 平方 距离 来 计算 这 个 误差 。 具体 来 说 ， 对 于 一 个 训练 好 的 模型 函数 E， 按 照 下 面 这 样 来 
计算 误差 : 
def error(f, x, y): 
return sp.sum( (f(x)-y)**2) 


癌 量 x 和 y 包 含 我 们 之 前 提取 的 Web 统 计数 据 。 这 正 是 Scipy 癌 量化 阻 数 ( 这 里 采用 的 是 f(x) ) 
的 美妙 之 处 。 在 训练 好 的 模型 中 , 我 们 假定 它 把 一 个 向 量 作 为 输入 , 并 返回 一 个 相同 大 小 的 向 量 。 
这 样 ， 我 们 就 可 以 用 它 来 计算 与 y 之 间 的 差距 。 

2. 从 一 条 简单 的 直线 开始 

让 我 们 假设 另外 一 个 例子 , 它 的 模型 是 一 条 直线 。 这 里 的 挑战 是 如 何在 网 中 画 出 一 条 最 佳 的 
直线 , 使 结果 中 的 近似 误差 最 小 。SciPy 的 polyfit () 函数 正 是 用 来 解决 这 个 问题 的 。 给 定数 据 x 
和 y， 以 及 期 望 的 多 项 式 的 阶 ( 直线 的 阶 是 1 )， 它 可 以 找到 一 个 模型 ， 能 够 最 小 化 之 前 定义 的 误 
差 亲 数 。 























fpl, residuals, rank, sv, rcond = sp.polyfit(x, y, 1, full=True) 


polyfit() 国 数 会 把 拟 合 的 模型 轴 数 所 使 用 的 参数 返回 ， 即 fp1; 而 且 通 过 把 fu11 置 成 
True， 我 们 还 可 以 获得 更 多 副 近 过 程 的 背景 信息 。 在 这 里 面 ， 我 们 只 对 残 差 感 兴趣 ， 而 这 正 是 
近似 误差 。 





>>> print ("Model parameters: %s" % fpl) 
Model parameters: [ 2.59619213 989.02487106 
>>> print (res) 

[ 3.17389767e+08 ] 


这 里 的 意思 是 说 ， 最 优 的 近似 百 线 如 下 面 这 个 函数 所 未 : 
f(x) = 2.59619213 * x + 989.02487106 

然后 用 polyla() 根据 这 些 参数 创建 一 个 模型 冰 数 。 

>>> f1 = sp.polyld (fp1) 


>>> print (error (f1, x, y)) 
317389767.34 
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我 们 已 经 利用 ful11=True 得 到 了 更 多 的 关于 通 近 过 程 的 细节 。 正 和 来 说 ， 我 们 并 不 需要 这 
个 ， 只 需要 返回 模型 参数 即 可 。 





事实 上 ， 我 们 在 这 里 只 是 做 了 曲线 拟 合 。 更 多 详细 信息 ， 请 参考 http:/en. 
wikipedia.org/Wiki/Curve fitting。 


现在 用 fd1 () 画 出 第 一 个 训练 后 的 模型 。 在 前 述 绘 图 命令 之 外 ， 我 们 简单 加 入 如 下 代码 : 
fx = sp.linspace(0,x[-1]，1000) # 生成 X 值 用 来 作 图 


plt.plot (fx, fl1(fx), linewidth=4) 
plt.legend(["d=%1i" % fl1i.order], loc="upper left") 


下 面 这 个 图 中 显示 了 我 们 第 一 个 训练 后 的 模型 
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虽然 前 面 4 个 星期 的 数据 好 像 并 没有 偏离 太 多 ， 但 我 们 仍然 可 以 清楚 地 看 到 ， 最 初 的 直线 模 
型 假设 是 有 问题 的 。 此 外 ， 实 际 误差 值 317 389 767.34 到 底 是 好 还 是 坏 呢 ? 

我 们 从 来 不 拿 误 差 的 绝对 值 单独 使 用 , 然而 当 比 较 两 个 苑 争 的 模型 时 , 可 以 利用 它们 的 绝对 
误差 来 判断 哪 一 个 更 好 。 人 尽管 第 一 个 模型 显然 不 是 我 们 想 要 的 , 但 它 的 工作 流程 却 有 一 个 重要 作 
用 : 我 们 可 以 把 它 当 做 基线 ， 直 到 找到 更 好 的 模型 。 无 论 将 来 构造 出 了 什么 样 的 模型 ， 我 们 都 会 
去 和 当前 的 基线 做 比较 。 

3. 一 些 高 级 话题 


现在 我 们 要 用 一 个 更 复杂 的 模型 来 做 拟 合 ， 来 看 一 个 阶 数 为 2 的 多 项 式 ， 看 看 它 是 否 可 以 更 
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好 地 “理解 ”我 们 的 数据 。 


>>> f2p = sp.polyfit(x, y, 2) 

>>> print (f2p) 

array([ 1.05322215e-02, -5.26545650e+00, 1.97476082e+03]) 
>>> f2 = sp.polyld(f2p) 

>>> print (error (f2, x, y)) 

179983507.878 


下 面 这 个 图 表 显示 了 之 前 训练 好 的 模型 (一 阶 线 )， 以 及 我 们 新 训练 出 的 更 复杂 的 二 阶 模 
型 ( 虚线 ): 
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这 里 的 误差 是 179 983 507.878， 几 乎 是 直线 模型 误差 的 一 半 。 这 个 效果 看 起 来 很 不 错 , 然而 ， 
它 也 是 有 代价 的 。 我 们 现在 得 到 了 一 个 更 复杂 的 函数 , 这 意味 着 在 polyfit () 中 多 了 一 个 参数 需 
要 调整 。 近 似 的 多 项 式 如 下 : 

f(x) = 0.0105322215 * x**2 - 5.26545650 * x+ 1974.76082 

在 这 里 , 如 果 复 杂 性 越 大 效果 越 好 , 那么 为 什么 不 进一步 增加 复杂 性 呢 ? 让 我 们 试 一 下 阶 数 
为 3、10 和 100 的 函数 。 
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数据 越 复杂 ， 曲 线 对 数据 远近 得 越 好 。 它 们 的 误差 值 似乎 也 反映 出 了 同样 的 绪 


Error d=1: 317,389,767.339778 
Error d=2: 179,983,507.878179 
Error d=3: 139,350,144.031725 
Error d=10: 121,942,326.363461 
Error d=100: 109,318,004.475556 


然而 , 如 果 近 距离 观察 拟 合 出 的 曲线 , 我 们 就 会 开始 对 它们 能 否 捕捉 到 真实 的 数据 生成 过 程 
心 生 疑虑 。 换 名 话说 , 我们 的 模型 是 否 真正 代表 了 广大 客户 访问 我 们 网 站 的 行为 呢 ? 看 看 10 阶 和 
100 阶 的 多 项 式 ， 我 们 发 现 了 巨大 的 震 汤 。 似 乎 这 些 模型 对 数据 拟 合 得 太 过 了 。 它 不 但 捕捉 到 了 
背后 的 数据 生成 过 程 ， 还 把 噪声 也 包含 进去 了 ， 这 就 叫做 过 拟 合 〈overfitting )。 

在 这 里 ， 我 们 有 如 下 的 选择 。 

口 选择 其 中 一 个 拟 合 出 的 多 项 式 模型 。 

口 换 成 男 外 一 类 更 复杂 的 模型 ， 样 条 ( splines ) ? 

口 从 不 同 的 角度 思考 数据 ， 然 后 重新 开始 。 

在 上 述 这 5 个 拟 合 模 型 中 ,1 阶 模型 明显 太 过 简单 了 , 而 10 阶 和 100 阶 的 模型 显然 是 过 拟 合 了 。 
只 有 2 阶 和 3 阶 模型 似乎 还 比较 匹配 数据 。 然 而 ， 如 条 在 数据 的 两 个 边界 上 进行 预测 ， 我 们 会 发 现 
它们 的 效果 令 人 抓 狂 。 

换 成 另外 一 类 更 复杂 的 模型 似乎 也 是 一 个 错误 路 线 。 那 么 什么 样 的 论据 会 文 持 哪 类 模型 呢 ? 
在 这 里 ， 我 们 意识 到 ， 也 许 我 们 还 没有 真正 理解 数据 。 
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4. 以 退 为 进 一 一 另 眼看 数据 

在 此 , 我 们 退回 去 从 另 一 个 角度 来 看 数据 。 似 乎 在 第 3 周 和 第 4 周 的 数据 之 间 有 一 个 抛 点 。 这 
让 我 们 可 以 以 3.5 周 作为 分 界 点 把 数据 分 成 两 份 ， 并 训练 出 两 条 直线 来 。 我 们 使 用 到 第 3 周 之 前 的 
数据 来 训练 第 一 条 线 ， 用 剩 下 的 数据 训练 第 2 条 线 。 


inflection = 3.5*7*24 # 计算 拐点 的 小 时 数 
x[:inflection] # 拐点 之 前 的 数据 














Xa 三 
ya =y[:inflection] 

xb = x[inflection:] # 之 后 的 数据 

yb =Yy[inftlection:] 

fa = sp.polyld(sp.polyfit (xa, ya, 1)) 
fb = sp.polyld(sp.polyfit (xb, yb, 1)) 
fa error = error(fa, xa, ya) 

fb error = error (fb, xb, yb) 


print ("Error inflection=%f" % (fa + fb error)) 
Error inflection=156,639,407.701523 


我 们 在 这 两 组 数据 的 范围 之 内 画 出 了 这 两 个 模型 ， 如 下 图 所 示 : 
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很 明显 , 两 条 线 组 合 起 来 似乎 比 之 前 我 们 做 的 任何 模型 都 能 更 好 地 拟 合 数据 。 但 组 合 之 后 的 
误差 仍然 高 于 高 阶 多 项 式 的 误差 。 我 们 最 后 能 否 相 信 这 个 误差 呢 ? 

换 一 个 方式 来 问 , 相 比 于 其 他 复杂 模型 , 为 什么 仅 在 最 后 一 周 数据 上 更 相信 拟 合 的 直线 模型 
呢 ? 这 是 因为 我 们 认为 它 更 人 符合 未 来 数据 。 如 琳 在 未 来 时 间 段 上 夯 出 模型 , 束 可 以 看 到 这 是 非 背 
正确 的 ( gq=1 是 我 们 最 初 的 二线 模型 )。 
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OP A LO I Es EY SO A I 它们 非常 努力 地 对 给 定数 据 正 确 建 
模 , 但 记 们 明显 商法 推 ) 到 将 来 的 数据 上 。 这 个 叫做 过 拟 合 。 男 一 方面 ， 低 阶 模型 似乎 也 不 能 恰 
当地 拟 合 数据 。 这 个 叫做 欠 拟 合 ( underfitting )。 

所 以 让 我 们 公平 地 看 待 2 阶 或 者 更 高 阶 的 模型 ,并 且 试 验 一 下 如 采 只 拟 合 最 后 一 周 数 据 的 话 ， 


会 有 什么 样 的 效 琳 。 毕 范 , 我 们 相 站 最 后 一 周 的 数据 比 之 前 的 数据 更 人 符合 未 来 数据 的 趋势 。 下 面 
这 个 有 些 迷 筷 的 图 表 中 给 出 了 结 采 。 这 里 更 加 明显 地 显示 出 过 拟 合 问题 是 如 何不 好 的 。 
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然而 ， 当 模型 只 在 3.5 周 及 以 后 数据 上 训练 时 ， 从 模型 误差 中 判断 ， 仍 然 应 该 选择 最 复杂 的 He 
那个 模型 。 


Error d=1: 22143941.107618 
Error d=2: 19768846.989176 
Error d=3: 19766452.361027 
Error d=10: 18949339.348539 
Error d=100: 16915159.603877 


5. 训练 与 测试 
如 采 有 一 些 未 来 数据 能 用 于 异型 评 佑 ,那么 仅 从 近似 误差 结 末 中 就 应 该 可 以 判断 出 我 们 选择 
的 模型 是 好 是 坏 了 。 


尽管 我 们 看 不 到 未 来 的 数据 ， 但 可 以 从 现 有 数据 中 拿 出 一 部 分 ， 来 模拟 类 似 的 效 末 。 例 如 ， 
把 一 定 比 例 的 数据 删 掉 , 并 使 用 剩 下 的 数据 进行 训练 , 然后 在 拿 出 的 那 部 分 数据 上 计算 误差 。 由 于 
模型 在 训练 中 看 不 见 拿 出 的 那 部 分 数据 ， 所 以 就 可 以 对 模型 的 未 来 行为 得 到 一 个 较为 真实 的 预 佑 。 


只 利用 拐点 时 间 后 的 数据 训练 出 来 的 模型 ， 其 测试 误差 显现 出 了 一 个 完全 不 同 的 境况 。 








Error d=1: 717,917,335.831122 
Error d=2: 6,993,880.348870 
Error d=3: 7,137,471.177363 
Error d=10: 8,805,551.189738 
Error d=100: 10,877,646.621984 





结果 显示 在 下 图 中 : 
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看 来 最 终 的 胜 者 已 经 一 目 了 然 。2 阶 模型 的 测试 误差 最 低 ， 而 这 个 误差 是 在 模型 训练 中 未 使 
用 的 那 部 分 数据 上 评 佑 得 到 的 。 这 证 我 们 相信 ， 当 未 来 数据 到 来 时 ， 不 会 遇 到 糟糕 的 意外 。 

6. 回答 最 初 的 问题 

最 终 得 到 了 一 个 模型 ,我 们 认为 它 可 以 最 好 地 代表 数据 生成 过 程 ; 现在 , 要 获悉 我 们 的 基础 
设施 何 时 到 达 每 小 时 100 000 次 请 求 ， 已 经 是 一 个 简单 的 事情 了 了， 只 需要 计算 何 时 我 们 的 模型 孙 
数 到 达 100 000 这 个 值 即 可 。 

对 于 2 阶 模 型 ， 我 们 可 以 简单 地 计算 出 它 的 逆 函 数 ， 并 得 到 100 000 上 的 结果 。 当 然 ， 我 们 还 
希望 有 一 个 可 以 适用 于 任何 模型 图 数 的 方法 。 

可 以 这 样 做 : 从 多 项 式 中 减 去 100 000， 得 到 另 一 个 多 项 式 ， 然 后 计算 出 它 的 根 。 如 果 提 供 


了 参数 的 初始 值 ，SciPy 的 optimize 模 块 有 一 个 fEsolve 图 数 可 以 完成 这 项 工作 。 假 设 这 个 胜出 
的 2 阶 多 项 式 是 fpt2: 











>>> print (fbt2) 
2 
0.08844 x - 97.31 x + 2.853e+04 
>>> print (fbt2-100000) 
2 
0.08844 x - 97.31 x - 7.147e+04 


>>> from scipy.optimize import fsolve 

>>> reached max = fsolve (fbt2-100000, 800)/(7*24) 

>>> print("100,000 hits/hour expected at week %f" % reached max[0]) 
100,000 hits/hour expected at week 9.827613 


模型 告诉 我 们 , 鉴于 目前 的 用 户 行为 和 我 们 公司 的 推进 力 , 还 有 一 个 月 才 会 到 达 访 问 容 量 的 
界限 。 

当然 , 加 入 了 我 们 的 预测 之 后 , 会 出 现 一 定 的 不 确定 性 。 要 获知 真实 的 情况 ， 需 要 更 复杂 的 
统计 学 知识 来 计算 我 们 在 望 向 更 远 处 时 所 期 望 的 方差 。 

对 一 些 用 户 和 潜在 用 户 的 动态 行为 , 仍然 无 法 准确 地 建 模 。 但 是 , 目前 的 预测 对 我 们 来 说 已 
经 不 错 了 。 毕 竞 ， 现 在 可 以 对 所 有 的 耗 时 行为 有 所 准备 。 如 果 能 够 对 Web 流 量 密切 监控 ， 我 们 就 
可 以 及 时 发 现 何 时 需要 分 配 新 的 资源 。 




















1.6 小结 


茶 辟 你 ! 你 刚刚 学 到 了 两 件 重 要 的 事情 。 其 中 最 重要 的 是 , 你 要 明白 ,作为 一 名 典型 的 机 奉 
学 习 丰 行者 , 你 会 在 理解 和 提炼 数据 上 花 训 大 部 分 精力 一 这 正 是 我 们 在 第 一 个 微小 的 机 融和 学 习 
示例 中 所 做 的 。 我 们 布 望 这 个 例子 可 以 玫 你 把 精力 从 算法 转移 到 数据 上 来 。 在 这 之 后 ,我 们 还 一 
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起 了 解 了 一 下 正确 设置 实验 的 重要 性 , 其 中 至 天 重要 的 是 ,不 要 把 训练 数据 和 测试 数据 混在 一 起 。 
诚然 , 使 用 多 项 式 拟 合并 不 是 机 天 学 习 领 域 最 酷 的 事情 。 这 个 例子 只 是 为 了 让 你 明 折 ,不 要 
让 一 些 “ 内 闪 发 光 ” 的 算法 分 散 你 的 注意 力 。 这 里 包含 上 面 总 绪 的 最 重要 的 两 点 。 
所 以 ,让 我 们 开始 学 习 第 2 革 的 内 容 。 我 们 将 深入 探究 Scikit-learn 这 个 令 人 慰 奇 的 机 带 学 习 
工具 箱 ， 并 概述 不 同类 型 的 学 习 算 法 ， 同 时 向 你 展示 特征 工程 的 美妙 之 处 。 

















如 何 对 真实 样本 分 类 





机 可 是 否 能 够 识别 出 图 像 中 的 花 汞 种类? 从 机 融 学习 的 角度 来 说 ,我 们 可 以 通过 以 下 方式 解 
决 这 个 问题 : 完 让 机 带 学 习 一 下 每 种 花 朱 的 样本 数据 ,然后 让 它 根 据 这 些 信息 ,对 未 标识 出 花 示 
种 类 的 图 像 进行 分 类 。 而 这 个 过 程 就 叫做 分 类 (或 者 叫 监督 学 习 )， 这 是 一 个 已 经 研究 了 几 十 年 
的 经 典 问 题 。 

我 们 将 会 用 一 些 容易 上 手 实 现 的 简单 算法 探索 小 规模 数据 集 。 我 们 的 目标 是 理解 分 类 的 基本 
原理 。 由 于 后 面 几 章 中 会 介绍 更 多 复杂 的 方法 ,而 这 些 方法 依赖 于 他 人 写 就 的 代码 ,因此 和 萤 握 分 
类 的 基本 原理 将 为 理解 后 面 几 章 的 内 容 打 下 坚实 基础 。 











2.1 Iris 数据 集 

Iris 数据 集 ( Iris dateset, 也 称 竟 尾 花 开 数 据 集 ) 是 源 目 20 世 纪 30 年 代 的 经 典 数据 集 。 它 是 最 
早 应 用 统计 分 类 的 现代 示例 之 一 。 

数据 中 包含 有 不 同 种 类 的 Iris 花 条 的 数据 , 这 些 种 类 可 以 通过 它们 的 形态 来 识别 。 时 至 今日 ， 
我 们 已 经 可 以 通过 基因 签名 〈genomic signature ) 来 识别 这 些 分 类 。 但 在 20 世 纪 30 年 代 ， 人 们 还 
不 确定 DNA 是 不 是 基因 信息 的 载体 。 


测量 的 是 每 个 花 朱 的 以 下 四 个 属性 : 





一 般 来 说 ， 我 们 把 数据 中 所 有 的 测量 结果 都 叫做 特征 。 


此 外 ， 每 个 花 朱 所 属 的 种 类 部 已 经 标 出 。 现 在 的 问题 是 : 如 来 看 到 这 种 植物 的 一 个 新 人 花 朱 ， 
我 们 能 否 通 过 它 的 四 个 特征 来 预测 出 它 的 种 类 ? 
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这 网 是 监督 字 习 或 分 类 问题 ; 对 于 给 定 的 这 有 类 别 标签 的 样本 , 我 们 要 设计 出 一 种 规则 , 然 
后 通过 这 种 规则 ， 最终 实 现 对 其 他 样本 的 预测 。 这 跟 垃 圾 邮件 分 类 问题 是 一 样 的 ; 根据 用 户 标 出 
的 垃圾 邮件 和 非 垃 圾 邮件 样本 ,我们 能 否 判 定 一 个 新 来 的 信息 是 否 是 垃圾 邮件 ? 


在 这 个 时 候 ，Iris 数 据 集 可 以 很 好 地 满足 我 们 的 需求 。 它 的 规模 很 小 ( 只 包含 150 个 样本 ， 
个 样本 有 4 个 特征 )， 很 容易 可 视 化 地 显示 出 来 并 进行 处 理 。 























2.1.1 第 一 步 是 可 视 化 


由 于 这 个 数据 集 的 规模 很 小 , 我 们 很 容易 把 所 有 的 数据 点 , 以 及 它们 在 二 维 空间 中 的 映射 男 
在 一 张 纸 上 。 我 们 由 此 可 以 形成 一 个 直观 认识 ， 然 后 将 其 拓展 到 维度 更 高 、 数 量 更 大 的 数据 上 。 
下 图 中 的 每 一 个 子 图 都 夯 出 了 所 有 数据 点 在 其 中 两 个 维度 上 的 上 映射。 外面 那 一 组 点 (三 角形 ) 代 
表 的 是 山 况 尾 花 〈Iris Setosa )， 中 间 的 (圆圈 ) 代表 的 是 变色 蕊 尾 花 ( Iris Versicolor )， 用 x 标记 
的 是 维 吉 尼 亚 音 尾 花 (Iris Virginica )。 我 们 可 以 看 到 ， 数 据 分 成 两 大 组 : 一 组 是 山药 尾 花 ( Iris 
Setosa )， 另 一 组 是 变色 营 尾 花 (Iris Versicolor ) 和 维 诗 尼 亚 意 尾 花 (Iris Virginica ) 的 混合 。 
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我 们 使 用 Matplotlib 这 个 最 著名 的 Python 绘 图 包 来 绘制 图 形 。 这 里 展示 了 生成 左上 子 图 的 代 
码 。 而 生成 其 他 子 图 的 代码 与 此 类 似 : 





from matplotlib import pyplot as plt 
from sklearn.datasets import load iris 
import numpy as np 


# 我 们 用 sklearn 中 的 1]0oad_iris 读 取 数 据 


data = load iris() 
features = datal[l'data'l| 
feature names = datal[l'feature names'| 


target = datal'target'] 
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for t,marker,c in zip(xrange(3),">ox","rgb"): 
# 我 们 画 出 每 个 类 别 ， 它 们 各 自 采 用 不 同 的 颜色 标识 
plt.scatter (features [Larget == 七 ,0]， 
features[target == 七 ,1 工 ] ， 


marker=markeLr， 
C=C ) 


2.1.2 构建 第 一 个 分 类 模型 


如 琳 我 们 的 目标 是 区 分 这 三 种 花 朱 的 类 型 ,那么 根据 已 经 绘制 出 的 图 形 , 答案 显 而 匈 见 。 例 
如 ， 根 据 花 为 长 度 似乎 就 可 以 将 山 竟 尾 花 (Iris Setosa ) 跟 其 他 两 类 花 条 区 分 开 。 我 们 写 一 点 代 
人 码 来 寻找 切 分 点 在 哪里 ， 如 下 所 示 : 








plength = features[:, 21] 
# 用 numpy 操 作 来 获取 setosa 的 特征 
js setosa = (labels == 'setosa') 


# 这 是 重要 的 一 消 

max setosa =plengthl[is setosal] .max() 

min non setosa = plength[~is setosal] .min() 
print('Maximum of setosa: {0}.'.format (max setosa)) 
print('Minimum of others: {0}.'.format (min non setosa)) 


它 打印 输出 了 1.9 和 3.0。 因 此 , 我们 可 以 构造 一 个 简单 的 模型 如 果 花 闪 长 度 小 于 2， 那 么 它 是 
山 仿 尾 花 (Iris Setosa ); 否则 ， 它 不 是 维 吉 尼 亚 音 尾 花 (Iris Virginica ) 就 是 变色 药 尾 花 ( Iris Versicolor )。 


if features[:,2] < 2: print 'Iris Setosa' 
else: print 'Iris Virginica or Iris Versicolour' 


这 是 我 们 的 第 一 个 模型 。 通过 它 可 以 将 山高 尾 花 跟 其 他 两 类 人 花 区 分 开 ， 而 旦 效果 非常 好 , 不 
会 出 现任 何 错误 . 

目前 这 个 模型 只 是 一 个 简单 结构 ; 它 是 某 个 维度 上 的 一 个 简单 国 值 。 我 们 还 可 以 通过 一 些 计 
算 ， 可 视 化 地 寻找 最 佳 的 国 值 ;， 当 我 们 编写 代码 实现 它 的 时 候 ， 机 和 硕 学 习 就 派 上 用 场 了 。 

将 山高 尾 花 ( Iris Setosa ) 跟 其 他 两 关 花 区 分 开 这 个 例子 是 很 简单 的 。 然 而 ， 我 们 却 无 法 立 
即 找到 区 分 维 吉 尼 亚 况 尾 花 〈Iris Virginica ) 和 变色 萝 尾 花 ( Iris Versicolor ) 的 最 佳 国 但 。 我 们 甚 
至 会 发 现 水 远 都 不 可 能 找到 完美 的 划分 。 不 过 , 我 们 还 是 可 以 尝试 一 下 最 有 可 能 成 功 的 方式 。 对 
此 ， 和 需要 进行 一 点 计算 。 

首先 ， 只 选择 非 山 总 尾 花 〈 Iris Setosa ) 的 特征 和 标签 : 























features = features[~is setosal 
labels = labels[~is setosal 
virginica = (labels == 'Vvirginica') 


在 这 里 ， 我 们 经 常会 用 到 NumPy 对 数组 进行 一 些 操作 。is_setosa 是 一 个 布尔 型 的 数组 ， 
我 们 用 它 从 另外 两 个 数组 ( features 和 1abels ) 中 选取 出 一 个 子 集 来 。 最 后 ， 我们 对 标签 进行 
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比较 看 它们 是 否 相 等 ， 并 构建 出 一 个 新 的 布尔 型 数组 virginica。 


现在 我 们 对 所 有 可 能 的 特征 和 国 值 进行 志 历 , 去 寻找 更 高 的 正确 率 。 正 确 率 就 是 模型 正确 分 
类 的 那 部 分 样本 所 局 的 比例 : 


Dest_ acc = -1.0 
for fi in xrange (features.shapel[1l]): 
# 我 们 将 要 针对 这 个 特征 生成 所 有 可 能 的 阅 值 
thresh = features[:,fi].copy!() 
thresh.sort() 
# 现在 测试 所 有 阅 值 
for 七 in thresh: 
pred = (features[:,fi] > t) 
acc = (pred == virginica) .mean() 
if acc > best acc: 
best acc = acc 
best fi = fi 
best 七 = 七 


代码 最 后 几 行 选 出 最 佳 模 型 。 首 移 , 我 们 要 比较 预测 结果 ( preq ) 和 真实 标签 ( virginica )。 
这 里 有 一 个 小 技巧 ， 那 就 是 通过 计算 比较 次 数 的 平均 值 ， 可 以 得 到 正确 结果 所 占 的 比例 ,也 束 古 
正确 率 。 在 for 循 环 的 最 后 , 所 有 特征 上 的 所 有 可 能 国 值 午 测试 过 了 ，best_Ef1 和 best_t 上 变量 岗 
代表 了 我 们 选 出 的 模型 。 要 将 它 应 用 到 新 的 样本 上 ， 我 们 需要 进行 如 下 操作 : 


if example[pbest_ fi] > t: print 'virginica' 























else: print 'versicolor' 


这 个 模型 生成 后 是 什么 样子 ? 如 采 在 全 部 数据 上 运行 ,我 们 得 到 的 最 佳 模 型 就 是 一 个 在 花 准 
长 度 上 的 划分 。 我 们 可 以 把 判别 边界 夯 出 来 。 在 下 图 中 , 我 们 可 以 看 到 两 个 区 域 : 一 个 是 日 色 的 ， 
为 一 个 被 灰色 阴影 覆盖 。 晶 色 区 域 中 的 任何 点 代表 的 都 足 维 吉 尼 亚 高 尾 花 (Iris Virginica )， 阴 影 
那 边 的 任何 点 代表 的 都 是 变色 音 尾 花 〈Iris Versicolor )。 
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在 国 值 模 型 中 , 判别 边界 常常 是 一 条 与 坐标 轴 平 行 的 直线 。 上 图 中 包含 了 判别 边界 和 两 个 区 
域 , 这 些 数据 点 不 是 在 日 色 区 域 就 是 在 灰色 区 域 中 。 同 时 ， 上 图 也 显示 出 ( 见 虚线 ) 万 一 个 国 值 
恰好 也 可 以 得 到 同样 的 正确 率 。 我 们 的 模型 选择 了 第 一 个 国 值 ， 但 那 是 随便 选 的 。 


评估 留存 数据 和 交叉 验证 


我 们 在 前 一 节 中 讨论 了 一 个 简单 模型 ; 它 在 训练 集 上 达到 了 94% 的 正确 率 。 然 而 , 这 个 评估 也 
许 过 于 乐观 了 。 因 为 我 们 用 这 些 数 据 去 确定 靖 值 ,然后 又 用 同样 的 数据 评估 了 这 个 模型 。 该 模型 的 
效 朱 当然 比 其 他 所 有 我 们 在 这 个 数据 集 上 答 试 过 的 模型 都 好 。 这 在 逻辑 上 犯 了 循环 论证 的 错误 。 


我 们 真正 想 做 的 事情 是 衡量 模型 对 新 样本 的 泛 化 能 力 。 所以, 这 里 应 该 用 训练 中 未 出 现 过 的 
数据 来 评估 模型 的 性 能 。 因 此 ,我 们 将 要 进行 一 个 更 严格 的 评估 ,并 且 使 用 留存 数据 。 对 此 , 我 
们 把 数据 分 成 两 部 分 , 一 部 分 用 于 训练 模型 ,一 部 分 ( 从 训练 集 拿 出 来 的 数据 ) 用 于 测试 模型 效 
朵 。 输 出 如 下 所 示 : 

















Training error was 96.0%. 
Testing error was 90.0% (N = 50). 


测试 集 上 的 正确 座 低 于 训练 集 上 的 正确 座 。 这 可 能 会 让 一 个 没有 经 验 的 机 带 学 习 初 学 者 感到 
惊讶 , 但 这 是 符合 预期 的 ， 而且 是 一 个 典型 情况 。 要 了 解 原 因 ， 可 以 回 过 尖 来 看 一 下 夯 出 的 判别 
边界 。 仔细 观察 一 下 , 一 些 离 边界 很 近 的 样本 是 否 不 在 那里 了 ,或 者 两 条 线 中 间 的 点 是 否 消失 了 。 
我 们 很 容易 想象 , 这 时 的 边界 将 会 癌 右 或 回 左 移动 一 点 , 从 而 导致 这 些 点 被 放 在 “错误 ”的 一 边 。 




















训练 数据 上 的 误差 叫做 训练 误差 , 它 对 算法 效果 的 估计 常常 过 于 乐观 。 我 们 
入 一 总 是 应 该 测量 和 报告 测试 误差 ， 也 就 是 在 未 用 于 训练 的 样本 集合 上 的 误差 。 











随 春 醒 型 越 来 越 复 傈 ,这些 概 念 也 变 得 越 来 越 重 要 。 在 这 个 示例 中 , 这 两 种 误差 的 差距 并 不 
是 很 大 。 但 当 使 用 一 个 复 林 的 模型 时 ， 训 练 集 上 的 正确 这 很 可 能 达到 100%， 但 在 测试 集 上 的 效 
末 却 跟随 机 猜测 差不多 。 


我 们 之 前 采用 了 从 训练 集中 留存 数据 的 方式 , 这 里 有 一 个 潜在 的 问题 , 即 在 训练 中 只 使 用 了 
部 分 数据 ( 在 这 个 例子 中 ,我们 使 用 了 一 半 的 数据 )。 另 一 方面 ， 如 果 我 们 在 测试 中 使 用 了 过 人 少 
的 数据 ,误差 佑 计 将 只 在 很 少 的 一 部 分 样本 上 进行 。 在 理想 情况 下 , 我们 希望 在 训练 和 测试 中 都 
能 使 用 所 有 的 数据 。 

我 们 可 以 通过 交叉 验证 〈cross-validation ) 达到 类 似 的 效果 。 交 义 验 证 的 一 个 极 问 (但 有 了 时 
很 有 用 ) 形式 叫做 去 一 法 ( leave-one-out )。 从 训练 集中 拿 出 一 个 样本 ， 并 在 缺少 这 个 样本 的 数据 
上 训练 一 个 模型 ， 然 后 看 模型 是 否 能 对 这 个 样本 正确 分 类 : 























error = 0.0 
for ei in range (len (features)): 
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# 选择 除了 ei 以 外 的 所 有 位 置 : 
training = np.ones (len(features), lbool) 
trainingl[lei] = False 
testing = ~training 
model = learn model (features[training], virginicaltrainingl]) 
predictions = apply model (features [testing] ， 
virginical[ltesting], model) 
error += np.sum(predictions != virginicaltesting]) 


至 这 一 循环 的 末尾 , 我 们 在 所 有 样本 上 对 一 系列 模型 进行 了 测试 。 然而 , 这 里 并 没有 循环 影 
啊 的 问题 ,这 是 因为 测试 每 个 样本 的 模型 ,在 构建 的 时 候 并 没有 把 这 个 样本 考虑 进去 。 因 此 ， 这 
个 综合 评 佑 就 是 对 模型 泛 化 能 力 的 一 个 可 敌 佑 计 。 

区 义 验 证 去 一 法 最 主要 的 问题 是 ， 我 们 必须 进行 100 次 或 者 更 多 的 训练 。 事 实 上 ， 针 对 每 个 
样本 ， 我 们 都 要 去 学 习 一 个 全 新 的 模型 。 工 作 量 会 随 春 数 据 集 变 大 而 增加 。 

我 们 可 以 通过 x 折 交叉 验 证 以 部 分 代价 获得 去 一 法 的 大 部 分 收益 。 这 里 x 代 表 一 个 小 数字 , 例 
如 5$。 为 了 进行 5 折 区 义 验 证 ， 我 们 会 把 数据 分 成 % 份 ， 这 就 是 5$ 折 的 由 来 。 

然后 我 们 训练 了 5 个 异型， 每 次 训练 分 别 把 其 中 一 份 效 据 合 出去。 实现 代码 跟 本 人 前面 给 出 
的 类 做， 但 这 里 我 们 是 把 20% 的 数据 拿 出 去 ， 而 不 仅仅 是 1 个 元 系 。 我 们 在 留存 数据 上 测试 这 些 
模型 的 效果 ， 并 对 结果 取 平 均值 : 
































Dataset Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 











上 图 曾 释 了 这 个 数据 5 分 块 的 过 程 ( 数据 集 被 分 成 了 5 块 ) 对 于 每 一 打 ， 你 将 其 中 一 块 保 留 
下 来 用 于 测试 ， 而 在 其 余 4 块 上 进行 训练 。 其 实 你 想 用 多 少 折 部 可 以 。5 或 10 折 是 比较 常见 的 ; 也 
就 是 在 训练 中 使 用 80% 或 者 90% 的 数据 ， 这 样 得 出 的 结果 与 使 用 所 有 数据 的 效果 比较 接近 。 在 极 
珊 悄 帝 下 ， 如 琳 你 用 的 折 数 跟 数据 个 数 一 样 多 ,那么 简单 地 进行 去 一 交叉 验证 即 可 。 

在 生成 数据 折 的 时 候 , 你 需要 齐 屠 地 保持 数据 分 布 的 平衡 。 例如 ,如 果菜 一 折 中 所 有 的 样本 
都 属于 同一 类 , 那 在 这 个 数据 集 上 得 到 绪 末 就 不 具有 代表 性 。 我 们 并 不 想 次 和 人 介绍 如 何 来 做 这 个 
事情 ， 因 为 机 天 学 习 工 具 包 可 处 理 好 此 事 。 
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我 们 现在 已 经 生成 了 几 个 模型 ,而 非 仅 仅 一 个 。 那 最 终 模 型 是 什么 呢 ? 如 何 将 它 用 在 新 数据 
上 呢 ? 最 简单 的 方法 就 是 在 所 有 训练 数据 上 使 用 一 个 综合 模型 。 交叉 验证 循环 会 帮 你 评价 一 个 模 
型 的 沁 化 能 


交 又 验证 计划 允许 你 使 用 所 有 的 数据 去 衡量 你 的 方法 效果 如 何 ,在 交 又 验证 
4 循环 的 末尾 ， 你 可 以 用 所 有 数据 来 训练 一 个 最 终 模型 。 


尽管 这 在 机 豆 学 习 发 展 之 初 并 设 有 被 适当 地 指出 , 而 在 今天 , 甚至 讨论 分 类 系统 的 训练 误差 
祁 会 被 看 做 一 个 非 芝 不 好 的 迹象 ,因为 它 的 绪 采 非常 具有 误导 性 。 我 们 硕 望 使 用 留存 数据 上 的 误 
差 ， 或 者 用 交叉 验证 计划 衡量 出 的 误差 来 进行 效果 评估 和 比较 。 

















2.2 构建 更 复杂 的 分 类 器 


在 前 一 节 中 ， 我 们 使 用 了 一 个 非 稼 简单 的 模型 : 在 一 个 维度 上 用 国 值 进行 划分 。 过 览 本 书 ， 
你 可 以 看 到 很 多 其 他 类 型 的 模型 ， 但 我 们 并 不 想 涵 盖 所 有 东西 。 


一 个 分 类 模型 是 由 什么 组 成 的 ?我 们 可 以 把 它 分 成 三 部 分 。 


口 模型 结构 ”在 这 里 我 们 采用 一 个 国 值 在 一 个 特征 上 进行 划分 。 

口 搜索 过 程 ” 在 这 里 我 们 尽 可 能 多 的 答 试 所 有 特征 和 国 值 的 组 合 。 

口 损失 函数 ”我 们 通过 损失 函数 来 确定 哪些 可 能 性 不 会 太 差 〈 因 为 我 们 不 会 去 讨论 完美 的 
解决 方案 ), 我 们 可 以 用 训练 误差 或 者 其 他 方式 定义 这 一 点 , 比如 我 们 想 要 最 高 的 正确 率 。 
一 般 来 说 ， 人 们 希望 损失 函数 最 小 化 。 


我 们 可 以 反复 试验 这 三 部 分 ,并 得 到 不 同 的 结 来 。 例 如 ,我 们 可 以 设置 一 个 国 值 ,让 它 的 训 
练 误 差 达到 最 小 , 不 过 对 每 个 特征 我 们 只 测试 三 个 值 : 特征 的 平均 值 、 均 值 加 一 个 标准 偏差 ， 以 
及 均值 减 1 个 标准 俩 差 。 尤 其 是 ， 如 采 测 试 每 一 个 值 和 都 非常 耗 时 《〈 或 者 我 们 有 成 千 上 万 的 数据 )， 
那么 就 有 必要 使 用 我 们 刚才 提 到 的 那 种 方法 。 因 为 穷 举 搜索 显然 不 可 行 ,我 们 必须 进行 近似 处 理 。 


作为 选择 , 我 们 可 以 有 不 同 的 损失 函数 。 一 种 可 能 的 情况 是 , 一 种 错误 比 万 一 种 的 代价 更 大 。 
在 医疗 领域 ， 假 阴性 和 假 阳 性 的 代价 并 不 相同 。 假 阴性 〈 当 检测 结 来 是 阴性 ， 但 实际 上 是 假 的 ) 
可 能 会 导致 患 有 严重 疾病 的 患者 无 法 及 时 得 到 治疗 。 假 阳性 〈 当 检测 结 末 是 阳性 ， 即 使 患者 并 没 
有 真正 患 有 这 种 病 ) 可 能 会 导致 患者 进行 更 多 不 必要 的 诊断 和 治疗 〈 这 仍然 是 有 代价 的 ,例如 治 
疗 的 副作用 )。 因 此 ， 根 据 有 具体 情况 ,选择 不 同 的 折 中 是 可 以 理解 的 。 在 一 个 极端 情况 下 ， 如 果 
疾病 是 致命 的 ， 而 治疗 费用 很 低 ， 副 作用 也 很 少 , 那么 我 们 会 和 希望 尽 可 能 使 假 阴性 最 少 。 在 垃圾 
邮件 过 小 问题 中 我 们 面临 同样 的 问题 ; 误 删 一 个 正常 邮件 对 用 户 来 说 是 十 分 危险 的 ,而 让 一 个 垃 
圾 邮件 通过 ， 只 会 市 来 一 点 小 麻烦 。 
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如 何 构 造 损失 函数 取决 于 你 正在 处 理 的 具体 问题 。 在 给 出 一 个 通用 算法 的 
> 时 候 ， 我 们 通常 把 精力 集中 在 使 分 类 错误 最 少 上 ( 达到 最 高 的 正确 率 )。 然 而 ， 
如 果 一 些 错 误 的 代价 比 其 他 的 更 大 ， 那 么 为 使 综合 成 本 最 小 ， 也 许 接受 一 个 较 

低 的 总 体 精度 较 好 。 











最 终 , 我 们 还 可 以 有 其 他 的 分 类 绪 构 。 人 简单 的 国 值 规则 是 非常 局 限 的 , 它 只 能 在 非 稼 价 单 的 
情况 下 发 挥 作 用 ， 例 如 Iris 数据 集 。 








2.3 更 复杂 的 效 据 集 和 更 复杂 的 分 类 器 
现在 我 们 看 一 个 复杂 一 点 的 数据 集 。 这 将 推动 下 文 对 新 的 分 类 算法 以 及 其 他 一 些 想法 的 


2.3.1 ”从 Seeds 数 据 集中 学 习 


现在 我 们 考虑 为 一 个 农业 数据 集 ; 它 的 规模 依然 很 小 ,但 是 要 想 如 Iris 效 据 集 那样 日 如 许 尽 地 
画 出 来 , 它 的 规模 就 显得 太 大 了 。 这 是 一 个 天 于 小 老 种 于 的 测量 数据 集 。 下 面 列 出 了 它 的 7 个 特征 : 


口 面积 (4 ); 

口 周 长 (P); 

口 紧密 度 ( C=4n4/P ); 

口 谷 粒 的 长 度 ; 

口 谷 粒 的 宽度 ; 

口 仿 度 系数 ; 

口 谷 粒 模 长 度 。 

这 些 种 子 一 共 分 为 三 个 类 别 ， 属 于 小 麦 的 三 个 不 同 品种 : Canadian 、Kama 和 Rosa。 和 以 前 
一 样 ， 我 们 的 目标 是 根据 对 小 麦 形态 的 测量 对 小 麦 品 种 进行 分 类 。 

与 收集 于 20 世 纪 30 年 代 的 Tris 数 据 集 不 同 ， 这 是 一 个 非常 新 的 数据 集 ， 它 的 特征 都 是 从 数字 
图 像 上 目 动 计算 生成 的 。 

图 像 模 式 识 别 是 这 样 实现 的 : 你 得 到 一 些 数字 格式 的 图 像 ， 从 中 计算 出 一 些 相关 特征 ， 然 后 
使 用 一 般 的 分 类 系统 进行 分 类 。 在 下 面 一 革 中 , 我 们 将 会 深入 讨论 计算 机 如 何 进行 视觉 方面 的 工 
作 ， 并 从 图 像 中 提取 特征 。 在 这 一 节 里 ， 我们 还 是 先 使 用 已 经 给 出 的 特征 。 
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UCI 机 器 学 习 数 据 集 仓库 


a 加 州 大 学 欧文 分 校 (UCI ) 维护 了 一 个 线 上 机 器 学 习 数 据 集 仓 库 ( 在 本 书 撰写 
时 , 它 一 共 列 出 了 233 个 数据 集 )。 本章 使 用 的 Iris 和 Seeds 数 据 集 都 是 从 那里 获得 的 。 
该 仓库 可 以 在 线 上 访问 : http://archive.ics.uci.edu/ml/。 


2.3.2 ”特征 和 特征 工程 


这 些 特 征 的 一 个 有 趣 地 方 是 ,紧密 度 特征 实际 上 并 不 是 一 个 新 的 测量 值 , 而 是 之 前 两 个 特征 ， 
面积 和 周 长 ， 所 组 成 的 滑 数 。 这 个 通用 领域 叫做 特征 工程 ( feature engineering )。 人 们 有 时 认为 
它 没 有 算法 那样 店 有 魅力 , 但 它 对 系统 性 能 也 许 有 很 大 的 影响 (一 个 简单 算法 在 精心 选择 的 特征 
上 的 效 采 比 一 个 课 亮 算法 在 较 差 的 特征 上 的 效 末 还 要 好 )。 


对 这 里 ， 原 作者 计算 了 “紧密 度 ” 这 个 特征 ， 这 是 一 个 典型 的 形状 特征 (也 叫做 “加 度 ”)。 
如 采 两 个 谷 粒 , 一 个 的 大 小 是 为 一 个 的 两 倍 , 但 形状 一 样 , 那么 这 个 特征 将 具有 相同 的 值 。 然而 ， 
对 于 非常 圆 的 谷 粒 〈 特征 值 接近 1 ) 和 局长 的 谷 粒 《〈 特征 值 接近 0 )， 它 的 值 会 很 不 相同 。 


好 特征 的 日 标 是 在 午 要 的 地 方 取 不 同 值 , 而 在 不 重要 的 地 方 不 变 。 例如 ， 紧 密度 不 会 随 大 小 
而 改变 ,但 会 随 着 形状 而 变化 。 在 实践 中 ,要 同时 完美 地 达到 这 两 个 目标 可 能 很 困难 ,但 我 们 希 
望 能 够 通 近 这 种 理想 情况 。 


你 需要 借助 背景 知识 通过 直觉 来 判断 哪些 是 好 特征 。 羊 运 的 是 , 在 很 多 问题 领域 , 已 经 有 很 
多 文献 介绍 了 可 能 用 到 的 特征 和 特征 类 型 。 对 于 图 像 , 之 前 提 到 的 所 有 特征 都 是 很 典型 的 , 计算 
机 视觉 库 可 以 帮 你 计算 出 来 。 基 于 文本 的 问题 也 是 如 此 ， 有 很 多 标准 的 解决 方案 可 以 混合 搭配 。 
尽管 ， 你 通 第 可 以 利用 特定 问题 中 的 领域 知识 来 设计 出 一 个 特定 的 特征 。 


甚至 在 获取 数据 之 前 ,你 必须 决定 哪些 数据 值得 收集 。 然 后 ,你 需要 将 所 有 的 特征 交 给 机 天 
去 评估 和 计算 最 优 分 类 希 。 

一 个 很 目 然 就 会 想到 的 问题 是 , 我 们 能 否 目 动 地 把 好 特征 选取 出 来 。 这 个 问题 叫做 特征 选择 
( feature selection )。 人 们 已 经 提出 了 很 多 方法 来 解决 这 个 问题 ， 但 在 实践 中 ， 极 简单 的 想法 可 能 
已 经 可 以 做 得 很 好 。 在 这 些小 数据 集 上 使 用 特征 选择 没有 什么 音义， 但 是 如 果 你 有 几 千 个 特征 ， 
那 扔 挥 其 中 大 多 数 特 征 将 会 大 大 加 快 后 续 的 流程 。 



























































2.3.3 ”最 邻近 分 类 


对 于 这 个 数据 集 ， 即 使 采用 之 前 的 方法 只 能 把 两 个 类 区 分 出 来 ， 而 且 不 能 得 到 很 好 的 结 
因此 ， 让 我 们 介绍 一 个 新 的 分 类 从: 最 邻近 分 类 如 。 


考虑 到 每 个 样本 是 由 它 的 特征 所 表示 的 ( 用 数学 语言 来 讲 ， 它 是 和 N 维 空间 中 的 点 )， 我 们 可 
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以 计算 样本 之 间 的 距离 ， 而 且 可 以 选择 不 同方 法 来 计算 这 个 距离 ， 例 如 : 


def distance (pO0, p1): 
'Computes squared euclidean distance' 
return np.sum( (pO-pl1)**2) 


在 分 类 的 时 候 , 我 们 采用 一 个 简单 的 规则 : 对 于 一 个 新 样本 , 我 们 在 数据 集中 寻找 最 接近 它 
的 点 〈 它 最 近 的 近邻 )， 并 查看 它 的 标签 : 
def nn classify(training_ set，tralnling labels, new_ example): 


dists = np.array ([distance(t, new_example) 
for 七 in training set]) 








nearest = dists.argminl) 
return training_ labels [nearestl] 


在 这 种 情况 下 ,我 们 的 模型 不 使 用 任何 训练 数据 及 标签 ,就 能 在 分 类 阶段 计算 出 所 有 的 结果 。 
一 个 更 好 的 实现 方法 是 ,在 学 习 阶 段 对 这 些 数据 做 索引 ， 从 而 加 速 分 类 的 计算 , 但 这 个 实现 是 一 
个 很 复杂 的 算法 。 


现在 , 我 们 注意 到 这 个 模型 在 训练 数据 上 表现 得 很 完美 。 在 每 个 数据 点 上 , 它 的 最 近 近 邻 就 
文 征 可 能 





发 生 的 ) 因此 ， 采 用 交叉 验证 来 进行 测试 是 很 必要 的 。 

我 们 在 这 个 数据 集 上 应 用 这 个 算法 ， 并 进行 10 折 交叉 验证 ， 可 以 得 到 88% 的 正确 率 。 正 如 之 
前 儿 节 中 讨论 的 ， 交 义 验 证 正确 率 会 低 于 训练 正确 率 ， 但 这 是 对 模型 性 能 更 可 徘 的 估计 。 

我 们 现在 来 看 一 下 判别 边界 。 对 此 ,我 们 必须 和 位 化 一 下 ， 只 考虑 两 个 维度 (这样 我 们 就 可 以 
把 它 画 在 纸 上 了 )。 
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在 前 网 中 ，Canadian 样 本 是 用 妆 形 表示 的 ，Kama 种 子 是 用 圆圈 表示 的 ，Rosa 种 子 是 用 三 角 
形 表示 的 。 它 们 的 区 域 分 别 用 白色 、 黑 色 和 灰色 表示 。 你 可 能 会 对 为 何 这 些 区 域 都 是 水 平方 癌 的 
感到 疑惑 ， 觉 得 这 非常 古怪 。 这 里 的 问题 在 于 ，x 轴 (面积 ) 的 值 域 在 10 到 22 之 间 ， 而 y 轴 ( 紧密 
度 ) 在 0.75 到 1.0 之 间 。 这 意味 着 ,x 值 的 一 小 点 改变 实际 上 比 y 值 的 一 小 点 变化 大 得 多 。 所 以 ,在 
用 之 前 的 困 数 计算 距离 的 时 候 ， 我 们 多 半 只 把 x 轴 考虑 进去 了 。 


如 打 你 了 解 一 些 物 理学 育 景 知 识 , 你 可 能 已 经 注意 到 我 们 已 经 把 长 度 、 面 积 和 无 量 纲 的 量 加 
了 起 来 ， 把 各 种 单位 混合 在 一 起 了 《我 们 从 不 会 在 物理 系统 中 这 样 做 )。 我 们 千 要 把 所 有 特征 都 
归 一 化 到 一 个 公共 玉 度 上 。 这 个 问题 有 很 多 解决 方法 ， 一 个 人 简单 的 方法 是 把 它们 归 一 到 2Z 值 
(Z-score )。2 值 表示 的 是 特征 值 离 它 的 平均 从 有 多 远 ， 它 用 标准 方差 的 数量 来 计算 。 它 可 以 归结 
到 以 下 这 一 对 简单 的 操作 上 : 

# 从 特征 值 中 减 去 特征 的 平均 什 

features -= features.mean (axis=0) 


# 将 特征 值 除 以 它 的 标准 差 


features /= features.std(axis=0) 














转换 为 Z 值 之 后 ,0 就 是 平均 值 ， 正 数 是 高 于 平均 值 的 值 , 负数 是 低 于 平均 值 的 值 , 它 独 立 于 
原始 值 。 

现在 每 个 特征 都 采用 了 同样 的 单位 (严格 来 说 , 每 个 特征 现在 都 是 无 量 纲 的 , 它 没有 单位 )， 
因此 我 们 可 以 更 放心 地 混合 不 同 维度 的 特征 。 事 实 上 ， 如 果 现 在 运行 最 邻近 分 类 需 ,， 我 们 可 以 得 
到 94% 的 正确 率 ! 


再 次 看 看 这 两 个 维度 的 决策 空间 ， 它 如 下 图 所 示 : 
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这 些 都 发 生 在 七 维 空间 中 , 它 非常 难以 可 视 化 地 显示 出 来 。 但 是 道理 是 一 样 的 : 之 前 是 少数 维度 
占据 统治 地 位 ， 而 现在 所 有 维度 都 具有 相同 的 重要 性 。 

最 邻近 分 类 融 昌 然 很 简单 ， 但 有 时 它 的 效 末 已 经 足够 好 。 我 们 可 以 把 它 泛 化 成 一 个 K 邦 近 分 
类 角 ,， 不 仅 考 虑 最 邻近 的 点 ， 还 要 考虑 前 kf 个 最 邻近 点 。 所 有 这 K 个 邻近 点 通过 投票 方式 来 选择 标 
签 。/ 一 般 是 一 个 小 数字 ， 比 如 $， 但 它 也 可 以 更 大 ， 特 别 是 当 数 据 规 模 非 常 大 的 时 候 。 














2.4 二 分 类 和 多 分 类 


我 们 看 到 的 第 一 个 分 类 肯 ， 国 值 分 类 胡 ， 是 一 个 简单 的 二 类 分 类 表 (由 于 数据 点 不 是 避 于 国 
值 就 是 低 于 国 值 ， 所 以 分 类 结 采 不 是 第 一 个 类 ， 就 是 第 二 个 类 )。 我 们 用 的 第 二 个 分 类 种， 最 邻 
近 分 类 各， 天 然 束 是 一 个 多 类 分 类 带 ( 它 的 输出 可 以 是 多 个 类 别 中 的 一 个 )。 


构建 一 个 二 分 类 方法 通常 要 比 构建 一 个 解决 多 分 类 问题 的 方法 更 加 简单 。 然而 , 我 们 可 以 将 
多 分 类 问题 细 化 成 一 系列 二 分 决 宁 。 这 就 是 之 前 我 们 在 Iris 数据 集 上 顺 宙 做 出 的 ; 我 们 观察 到 ， 
将 原始 类 别 中 的 一 个 类 别 分 离 出 来 很 容易 , 我 们 需要 专注 于 邦 外 两 个 类 别 的 区 分 ， 而 这 些 可 以 退 
化 成 几 个 二 分 类 决策 。 


口 它 是 山 蕊 尾 花 ( Iris Setosa ) 品种 吗 ( 是 或 否 ) ? 

口 如 朵 不是， 那 看 它 是 否 是 维 吉 尼 亚 苞 尾 花 ( Iris Virginica ) 品种 ( 是 或 否 )。 

当然 , 我 们 希望 把 这 类 推理 留 给 计算 机 。 像 往 党 一样 , 对 于 多 类 别 的 细 化 , 有 几 种 解决 方案 。 

最 简单 的 方法 就 是 使 用 一 系列 的 “一 对 多 分 类 带 "。 对 于 每 个 可 能 的 标签 1， 我 们 分 别 构建 一 
个 分 类 希 ， 判 断 样 本 的 标签 “是 1] 还 是 其 他 ?” “。 当 我 们 使 用 这 个 规则 时 ， 人 恰好 其 中 一 个 分 类 需 说 
是， 那么 我 们 的 问题 就 得 到 了 解决 。 不 马 的 是 ， 这 种 情况 并 不 总 会 发 生 ， 所 以 我 们 必须 确定 如 
何 处 理 多 个 正 类 别 的 绪 末 或 多 个 负 类 别 的 绪 末 。 















































Iris Virginica? is |ris Setosa 
is |ris Virginica is |ris Versicolour 


作为 为 外 一 种 选择 , 我 们 还 可 以 构建 一 个 分 类 树 。 将 每 一 个 可 能 的 标签 分 成 两 段 , 然后 构建 











一 个 分 类 各 判断 “样本 应 该 向 左 走 还 是 辣 右 走 ”"。 我 们 可 以 对 标签 递归 地 切 分 ， 下 到 得 到 一 个 单 
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一 标签 。 前 面 这 幅 疼 描绘 了 对 Iris 数据 集 用 树 进 行 推理 的 过 程 。 每 个 帮 形 代表 一 个 二 类 分 类 货 。 
很 容易 想象 到 ， 我们 可 以 把 树 扩 展 得 更 大 ,包含 更 多 的 判断 条 件 。 这 意味 着 任何 用 于 二 分 类 问题 
的 分 类 徊 部 很 容易 处 理 任意 个 类 别 的 多 分 类 问题 。 


还 有 很 多 其 他 方法 可 以 将 一 个 二 分 类 方法 变 为 多 分 类 方法 。 但 并 没有 茶 一 个 方法 在 所 有 情况 
下 虱 比 其 他 方法 明显 好 。 不 过 ， 一 般 来 说 无 论 用 哪 一 个 ， 最 终 效 末 郡 不 会 老 距 大 大 。 

大 多 数 分 类 冀 邵 是 二 分 类 系统 ， 而 很 多 现实 问题 天 然 就 是 多 类 别 的 。 通过 一 些 简 单方 法 , 我 
们 可 以 把 多 分 类 问题 细 化 成 一 系列 二 分 类 决策 ， 在 多 分 类 问题 中 使 用 二 分 类 模型 。 














2.5 小结 


从 攻 种 意义 上 说 ,这 是 很 理论 化 的 一 草 ，, 因为 我 们 用 简单 示例 介绍 了 很 多 一 般 性 概念 。 让 我 
们 重 温 一 下 在 一 个 经 典 数 据 集 上 的 处 理 过 程 。 到 现在 为 止 ， 这 只 是 一 个 规模 很 小 的 问题 。 然 而 ， 
它 的 优点 在 于 能 让 我 们 把 它 夯 出 来 , 看 到 我 们 具体 在 做 什么 。 当 我 们 换 一 个 维度 高 、 样 本 多 的 问 
题 时 ， 这 一 优点 就 不 匈 了 。 但 我 们 在 这 里 获得 的 直观 认识 依然 症 有 效 的 。 


分 类 意味 着 对 样本 进行 归纳 ， 从 而 构建 出 一 个 模型 ( 这 是 一 个 能 够 目 动 对 新 的 、 未 分 类 的 数 
据 进行 分 类 的 规则 )。 这 是 机 融 学 习 的 一 个 基础 工具 , 我 们 在 后 面 的 儿 章 中 将 会 看 到 更 多 的 示例 。 


我 们 还 学 习 到 ， 对 于 模型 效果 , 训练 误差 是 一 个 有 误导 性 的 、 过 于 乐观 的 估计。 相反 ,我 们 
必须 使 用 未 用 于 训练 的 测试 数据 来 评估 效 末 。 为 了 在 测试 中 不 浪 旨 过 多 的 样本 , 交叉 验证 计划 可 
以 帮 我 们 兼 得 两 者 的 优势 (以 更 多 的 计算 作为 代价 六 

我 们 还 探究 了 一 下 特征 工程 问题 。 特征 并 不 是 天 生 就 为 你 预备 的 , 但 选择 和 设计 特征 却 是 设 
计 机 检 学 习 流 程 的 一 个 组 成 部 分 。 事实 上 ,这 通 第 是 一 个 能 够 获得 最 大 正确 率 提 升 的 地 方 ,， 这 是 
因为 更 好 的 特征 数据 往往 可 以 击败 更 课 涡 的 方法 。 在 计算 机 视 党 和 基于 文本 分 类 等 音 中 , 我 们 将 
看 到 具体 问题 的 相应 示例 。 

在 本 革 中 ， 我 们 编写 了 日 己 的 代码 ( 当然 ， 使 用 NumPy 的 时 候 除 外 ) 在 后 面 几 章 中 将 不 会 
这 样 ， 但 我 们 仍然 需要 用 简单 示例 建立 一 个 直觉 印象 ,来 阐明 这 些 基 本 概念 。 


下 一 音 ， 我 们 来 看 当 数 据 中 没有 预 设 的 类 别 信息 时 应 当 如 何 处 理 。 
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在 前 一 革 中 , 我 们 已 经 学 会 确定 每 个 数据 点 的 类 别 或 种 类 。 通过 少量 训练 数据 及 其 对 应 的 类 
别 , 我们 训练 出 了 能 对 未 来 数据 进行 分 类 的 模型 。 我 们 把 这 叫做 监督 学习, 这 是 因为 学 习 过 程 是 
在 老师 的 指导 下 完成 的 ， 这 个 老师 就 是 数据 的 正确 类 别 。 


现在 想象 一 下 , 当 我 们 没有 标签 可 以 让 分 类 模型 去 学 习 的 时 候 , 比如 说 可 能 是 因为 有 标签 的 
样本 收集 成 本 太 高 。 在 这 种 情 次 下 ， 我 们 该 怎么 做 呢 ? 


好 了 ,我 们 当然 不 可 能 学 出 一 个 分 类 模型 ,然而 可 以 从 数据 本 里 找 到 一 些 模式 。 这 就 是 在 本 
章 将 要 做 的 ,在 这 里 我 们 会 应 对 来 日 于 一 个 “问答 ”网 站 的 挑战 。 当 用 户 访问 网 站 来 寻找 特定 信 
娠 的 时 候 ， 搜 索引 苟 很 可 能 会 告诉 他 /她 特定 的 答案 。 为 了 提升 用 户 体 验 ， 我 们 想 列 出 所 有 与 该 
答 宁 相关 的 问题 。 如 末 列 出 的 答案 并 不 是 他 /她 想 要 的 ， 他 /她 就 会 去 看 其 他 的 党 案 ， 并 有 和 硕 望 一 
直 留 在 我 们 的 网 站 上 。 


一 个 朴素 的 方法 是 计算 一 个 帖子 和 其 他 所 有 帖子 的 相似 度 ,然后 将 前 N 个 最 相似 的 帖子 以 链 
接 的 形式 展现 在 页 面 上 。 这 很 快 就 会 变 得 十 分 耗 时 。 因 此 ， 我 们 需要 一 个 寻找 相关 帖子 的 快速 
方法 。 

本 章 , 我 们 会 通过 聚 类 来 实现 这 个 目标 。 这 是 一 种 安置 数据 项 的 方法 ,使 相似 的 数据 项 处 于 
同一 个 秘 中 , 不 相似 的 数据 项 分 在 不 同 的 能 里 。 我 们 需要 处 理 的 第 一 件 未 手 事情 ,就 是 如 何 将 文 
本 转化 成 一 种 形式 ,使 我 们 可 以 基于 它 进行 相似 度 的 计算 。 在 有 了 这 样 一 个 相似 度 度量 方法 之 后 ， 
我 们 将 继续 研究 如 何 利用 它 来 快速 得 到 包含 相似 帖子 的 簇 。 一 旦 完成 , 我 们 只 需要 查看 那些 属于 
同一 秘 的 文档 。 为 达到 这 个 目的 ， 我 们 将 会 介绍 一 个 神器 :Scikit 库 。 它 包含 多 种 多 样 的 机 器 学 
习 方法 ,我 们 在 后 面 一 些 章 中 仍 会 用 到 。 


















































3.1 评 信 帖子 的 关联 性 


从 机 条 学 习 角 度 来 看 , 原始 文本 的 用 处 并 不 大 。 只 有 当 我 们 把 它 转换 为 有 意义 的 数值 , 才能 
传人 机 杂 学 习 算法 ， 例 如 聚 类 。 对 文本 的 其 他 一 般 性 操作 ， 如 相似 性 衡量 ， 也 与 此 关 似 。 
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3.1.1 不 应 该 怎样 


有 一 种 文本 相似 性 的 衡量 方式 叫做 Levenshtein 距 离 , 又 叫做 编辑 距离 。 假 设 我 们 有 两 个 单词 
“machine” 和 “mchiene”。 它 们 之 间 的 相似 度 可 以 表示 成 将 一 个 单词 转换 为 男 一 个 单词 所 需要 的 
最 少 的 必要 编辑 次 数 。 在 这 个 例子 里 ， 编 辑 距 离 是 2， 因 为 我 们 可 以 在 “m” 后 面 加 一 个 “a”， 
并 删 掉 第 一 个 “e”。 然 而 ， 这 个 算法 比较 耗 时 ， 它 的 运行 时 间 受 限于 两 个 单词 长 度 的 乘积 。 


看 看 要 处理 的 帖子 , 我 们 可 以 将 整个 单词 看 成 字符 ,并 在 词语 粒度 上 进行 编辑 距离 计算 。 假 
设 我 们 有 两 个 帖子 〈 为 了 简单 起 见 ， 我 们 只 考虑 帖子 的 标题 ) “How to format my hard disk” 
和 “Hard disk format problems”; 我 们 得 到 编辑 距离 6 ( 删除 “how”“to”“format”“my”， 然 后 
在 末尾 加 上 “format” 和 “problems”)。 因 此 ， 我 们 可 以 把 两 个 帖子 的 差距 表达 为 ， 把 一 段 文 本 
转化 为 另 一 段 所 需要 增加 或 删除 的 词语 个 数 。 尽 管 这 样 可 以 使 整个 方法 的 速度 提升 不 小 , 但 时 间 
复杂 度 依 然 是 一 样 的 。 

即使 它 的 运行 速度 已 经 足够 快 了 ,还 有 另外 一 个 问题 :“format ”这 个 单词 本 来 出 现在 了 ”hard 
disk” 前 面 ， 修 改 后 出 现在 了 “hard disk ”后 面 ， 所 以 它 的 编辑 距离 为 2〈 先 把 这 个 词 删 拭 ， 再 把 
它 加 上 )。 因 此 我 们 定义 的 距离 似乎 还 不 够 稳健 ， 它 没有 把 词语 的 重新 排列 考虑 进去 。 


























3.1.2 ”应 该 怎样 


有 一 个 比 编 辑 距 离 更 为 健壮 的 方法 叫做 词 袋 ( bag-of-word ) 方法 。 它 基于 简单 的 词 频 统计 ; 
对 每 一 个 帖子 中 的 词语 ,将 它 的 出 现 次 数 记 录 下 来 并 表示 成 一 个 回 量 。 训 无 疑问 ， 这 一 步 也 叫做 
问 量 化 。 这 里 的 同 量 通 稼 很 庞大 , 这 是 因为 它 包 含 的 元 素 个 数 ， 跟 出 现在 整个 数据 集中 的 词语 数 
目 一 样 多 。 考 虑 上 述 两 个 示例 帖子 ， 下 面 是 词 频 统计 : 














词 ”请 帖子 1 中 的 出 现 次 数 帖子 2 中 的 出 现 次 数 
disk 1 1 

format 
how 
hard 
my 


problems 


一 OP 一 G5 一 一 
OP OP OO 


to 


现在 可 以 把 帖子 1 和 帖子 2 这 两 列 看 做 两 个 简单 癌 量 。 我 们 简单 地 计算 所 有 帖子 回 量 之 间 的 欧 
氏 距 离 ， 并 选 出 最 近 的 一 个 帖子 ( 速度 很 慢 ， 正 如 之 前 发 现 的 那样 )。 同 样 ， 我 们 之 后 可 以 把 它 
们 当做 特征 向 量 在 以 下 聚 类 步 又 中 使 用 。 


(1) 对 每 个 帖子 提取 重要 特征 ， 并 针对 每 个 帖子 存储 为 一 个 向 量 。 
(2) 在 这 些 回 量 上 进行 聚 类 计算 。 
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(3) 硝 定 每 个 竺 聚 类 帖子 所 在 的 族 。 
(4) 对 每 个 族 ， 获 取 几 个 与 每 肾 类 帖子 不 同 的 帖子 。 这 样 可 以 提升 多 样 性 。 


然而 ， 在 进行 上 述 操作 之 前 我 们 还 有 很 多 工作 要 做 ， 而 在 做 这 些 工 作 之 前 ,我 们 需要 一 些 
数据 。 
3.2 ” 预 处 理 : 用 相近 的 公共 词语 个 数 来 衡量 相似 性 


正 像 我 们 之 前 看 到 的 那样 ， 词 袋 方法 既 快 捷 又 稳健 。 然而, 它 也 不 是 没有 问题 ,让 我 们 深 入 
有 he 





3.2.1 将 原始 文本 转化 为 词 袋 

我 们 根本 无 需 编 写 特别 的 代码 来 统计 词语 个 数 ， 并 把 词 频 表示 成 向 量 。Scikit 的 
CountVectori zez 可 以 很 高 效 地 做 好 这 部 分 工作 。 它 还 有 一 个 非常 方便 的 接口 o Scikitb 陋 数 和 
类 可 以 通过 sklearn 包 引入 进来 ， 如 下 所 示 : 





>>> from sklearn.feature extraction.text import CountVectorizer 
>>> vectorizer = CountVectorizer (min df=1) 


参数 min_qf 决 定 了 CountVectorizer 如 何 处 理 那 些 不 经 党 使 用 的 词语 ( 最 小 文档 频率 )。 
如 采 将 它 设 成 一 个 整数 ， 那 么 所 有 出 现 次 数 小 于 这 个 信 的 词语 者 将 被 扔 把 。 如 打 它 是 一 个 比例 ， 
那么 所 有 在 整个 数据 集中 出 现 比例 小 于 这 个 值 的 词语 部 将 被 扔 掉 。 参数 max_af 的 功能 与 此 类 似 。 
如 来 我 们 把 实例 的 内 容 打 印 出 来 ， 我 们 会 看 到 Scikit 提 供 的 其 他 参数 及 其 上 默认 值 : 


>>> print (vectorizer) 











CountVectorizer (analyzZzer=word, binary=False, charset=utf-8, 
charset_ error=strict, dtype=<type 'long'>, input=content, 
lowercase=True, max df=1.0, max features=None, max n=None, 

min df=1, min n=None, ngram range=(1, 1), preprocessor=None, 
stop_ words=None, strip_ accents=None, token pattern=(?u) \b\w\w+t+\b, 
tokenizer=None, vocabulary=None) 


我 们 会 看 到 ， 正 如 所 预期 的 那样 ， 词 频 统 计 是 在 词语 粒度 上 完成 的 (analyzer=word )， 而 
所 有 词语 都 是 用 正则 表达 模式 token_pattern 确 定 下 来 的 。 例 如 ， 它 会 将 “cross-validated” 切 
分 成 “cross” 和 “validated” 这 两 个 词 。 我 们 现在 先 忽 上 略 其 他 参数 。 





>>> content = ["How to format my hard disk", " Hard disk format 
problems "|] 
>>> X = vectorizer.fit transform(content) 


>>> vectorizer.get feature names () 
[u'disk', u'format', u'hard', u'how', u'my', u'problems', u'to'] 


这 个 向 量化 处 理 厅 检测 到 了 7 个 词 晤 ， 我 们 分 别 获取 了 它们 的 出 现 次 数 : 
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>>> print (X.toarray() .transpose() ) 
array([[1, 11], 

[1, 11], 

[ 工 ， 工 ] ， 

[1, 0], 

[1L, 0]; 

[0， 工 ] ， 

[1, 0]], dtype=int64) 








这 意味 着 , 第 一 句 中 把 除 “problems” 外 的 其 他 词语 都 包括 进来 广 , 而 第 二 句 中 含有 除 “how” 
“my” 和 “to” 以 外 的 其 他 词语 。 事实 上 ， 这 跟前 面 表 中 对 应 列 的 内 容 一 模 一 样 。 从 X 中 我 们 可 
以 提取 出 特征 回 量 ， 来 比较 两 个 文档 之 间 的 相似 度 。 


自 完 我 们 从 一 个 朴 双 的 方法 开始 , 指出 一 些 必 须 考 虑 的 预 处 理 特性 。 我 们 随便 挑选 了 一 个 帖 
子 , 然后 用 它 创 建 一 个 词 频 癌 量 。 我 们 比较 它 和 其 他 所 有 词 频 癌 量 的 距离 ,然后 获取 距离 最 小 的 
那个 帖子 。 











3.2.2 ”统计 词语 
让 我 们 对 一 个 简单 数据 集 进行 实验 ， 它 包括 下 面 这 些 帖 子 : 


帖子 文件 名 帖子 内 容 
01 .txt This 1s a toy post about machine learning. Actually, lt contains not much mteresting stuff. 
02 txt lImaging databases can get huge. 
03,txt Most 1maging databases safe Images permanently. 
0Q4. Ex lImaging databases store images. 
05 .txt Imaging databases store 1mages. Imaging databases store 1mages. Imaging databases Store 1mages. 


在 这 个 帖子 数据 集中 ， 我 们 想 要 找到 和 短 帖 子 “imaging database” 最 相近 的 帖子 。 
假设 这 些 帖 子 存 放 在 目录 DIR 下 ， 我 们 可 以 按 如 下 方法 把 它 传 给 countVectorizer: 


>>> posts = [open(os.path.join(DIR, f)) .read() for f in 
os.listdir (DIR)] 

>>> from sklearn.feature extraction.text import CountVectorizer 
>>> vectorizer = CountVectorizer (min df=1) 


我 们 需要 告诉 这 个 癌 量 化 处 理 天 整个 数据 集 的 信息 , 使 它 可 以 预先 知道 都 有 哪些 词语 , 如 下 
列 代码 所 示 : 


>>> X train = vectorizer.fit transform(posts) 


>>> num_ samples, num features = X train.shape 


>>> print("#samples: %d, #features: %d" % (num samples, 
num features)) #samples: 5, #features: 25 
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不 出 所 料 ，5 个 帖子 中 总 共 包 含 了 25 个 不 同 的 词语 。 接 下 来 ,我们 要 统计 下 面 这 些 切 分 出 的 


词 声 : 


>>> print (vectorizer.get feature _Pnames() ) 


[u'about', u'actually', u'capabilities', u'contains', u'data', 
u'databases', u'images', u'imaging', u'interesting', u'is', uu'it', 
u'llearning', u'machine', u'most', u'much', u'not', u'permanently', 
uUu'pPost', u'provide', u'safe', u'storage', u'store', u'stuff', 
u'this', u'toy'] 





现在 可 以 对 新 帖子 进行 癌 量化 ， 如 下 所 未: 


>>> new_post = "imaging databases'" 
>>> new_post vec = vectorizer.transform( [new post] ) 


注意， 由 transform 方 法 返回 的 词 频 癌 量 是 很 稀疏 的 。 这 个 是 说 ， 由 于 大 多 数 统 计 值 都 是 0 
(帖子 不 包含 某 个 词 ), 在 每 个 癌 量 中 并 没有 为 每 个 词语 都 存储 一 个 统计 值 。 相 反 ， 它 使 用 了 高 效 
内 存 的 实现 方式 coo_matrix ( 对 应 “COOrdinate”)。 例如 ， 我 们 的 新 帖子 中 只 包含 两 个 元 又 : 

>>> print (new_post_vec,) 


(0, 7)1 
(0, 5)1 


通过 成 员 函 数 toarray () 可 以 访问 到 nqarray 的 全 部 内 容 ， 如 下 所 示 : 


>>> print (new_post vec.toarray()) 
[[ 0 0000101000000000000000 0 01] 


如 末 要 把 数组 当做 回 量 进行 相似 度 计算 , 我 们 就 需要 使 用 数组 的 全 部 元 系 。 通过 相似 度 的 衡 
量 方 法 ( 朴 系 方法 ) 我 们 计算 新 帖子 和 其 他 所 有 老 帖 子 的 词 频 问 量 之 间 的 欧 氏 距离 ， 如 下 所 示 : 

>>> import scipy as sp 

>>> def dist raw(vil, v2): 


>>> delta = V1L-V2 
>>> return sp.linalg.norm(delta.toarray ()) 


norm() 图 数 用 于 计算 欧 几 里 得 范 数 (最 小 距离 )。 只 需要 用 dist_raw 遍 历 所 有 帖子 ， 并 记 
录 最 相近 的 一 个 : 





>>> import sys 


>>> best doc = None 
>>> best dist = sys.maxint 
>>> best i = None 


>>> for i in range(0, num samples): 
post = posts[i] 


if post==new_ post: 
continue 
post vec = X train.getrow(1) 
d = dist(post vec, new post vec 
print "=== Post %i with dist=%.2f: %s"%$(i, d, post) 
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理解 
不 是 最 相似 的 ， 因 为 它 比 帖子 3 多 包含 了 1 个 未 出 现在 新 帖子 中 的 词语 。 


情况 并 不 是 那么 清晰 。 帖 子 4 和 帖子 3 的 内 容 一 样 , 但 重复 了 3 人 裔 。 
它 与 新 帖子 的 相似 度 应 该 和 帖子 3 是 一 样 的 。 


守 征 问 量 来 解释 一 下 原因 : 


所 以 ， 


ps 


外 


取 


if d<best dist: 
best dist 
best 1 


eA 


>>> print(" 


Actually, it contains not 


=== Post 1 with dist=1.73: 


capabilities. 


permanently. 


databases store data. 


qd 


Best post is %1i with dist=% 


Post 0 with dist=4.00: 


Post 2 with dist=2.00: 


Post 3 with dist=1.41.: 
Post 4 with dist=5.10: 
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.2f"g(best_ i, best dist)) 
This is a toy post about machine learning. 
much interesting stuff. 


Imaging databases provide storage 


Most imaging databases safe images 


Imaging databases store data. 


Imaging databases store data. Imaging 


Imaging databases 


Best post is 3 with dist=1.41 





未 豆 你 ! 我 们 有 了 第 
， 因 为 它 和 新 帖子 没有 任何 公 


然而 , 看 看 帖子 3 和 帖子 4， 


过 打印 出 相应 的 条 





>>> def dist norm(vi, 
V1 normalized 


V2 _normalized 
delta 


一 个 相似 度 衡量 方法 。 帖 子 0 是 和 新 帖子 最 不 相似 的 一 个 。 这 


V2): 
vl/sp.linalg.norm(vi.toarray ()) 


一 点 可 以 
共 词语 。 我 们 还 可 以 看 到 帖子 1 和 新 帖子 是 非常 相似 的 ， 但 并 








>>> print (xX train.getrow(3) .toarray()) 

[[0 0001101000000000000010 0 0]1]1 

>>> print (xX train.getrow(4) .toarray()) 

[[0 0 0033030000000000000300 0]1]1 

很 明显 , 只 使 用 原始 词语 的 词 频 统计 这 种 方式 过 于 简单 了 。 我 们 需要 对 它们 进行 归 一 化 , 得 
到 单位 长 度 为 1 的 问 量 。 
3.2.3 ”词语 频次 回 量 的 归 一 化 

我 们 需要 对 aist_raw 进 行 扩 展 ,， 来 计算 辐 量 的 距离 。 这 不 是 在 原始 癌 量 上 进行 ， 而 是 在 归 
一 化 后 的 回 量 上 进行 。 


V2/sp.linalg.norm(v2.toarray()) 
V1 normalized - V2 normalized 


return sp.linalg.norm(delta.toarray()) 


由 此 可 得 出 如 下 相似 度 计算 结 


Actually, 


Post 0 with dist=1.41.: 


This is a toy post about machine learning. 


it contains not much interesting stuff. 
Post 1 with dist=0.86: 


Imaging databases provide storage 
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capabilities. 

=== Post 2 with dist=0.92: Most imaging databases safe images 
permanently. 

=== Post 3 with dist=0.77: Imaging databases store data. 

=== Post 4 with dist=0.77: Imaging databases store data. Imaging 
databases store data. Imaging databases store data. 

Best post is 3 with dist=0.77 


这 样 看 起 来 好 一 些 了 。 帖子 3 和 帖子 4 具有 了 相同 的 相似 度 。 有 人 可 能 会 争论 , 重复 过 多 是 否 
依然 能 让 读者 感到 愉快 ,但 从 词 频 统计 的 角度 来 说 ， 这 看 起 来 是 正确 的 。 











3.2.4 删除 不 重要 的 词语 


让 我 们 再 来 看 看 帖子 2。 不 包含 在 新 帖 中 子 的 词语 有 “most”“safe”“images ”和 
“permanently”。 事 实 上 它们 在 帖子 中 的 重要 性 并 不 相同 。 像 “most” 这 样 的 词语 经 党 出 现在 各 种 
不 同 的 文本 中 ， 这 种 词 叫 做 停 用 词 。 它 们 并 未 承载 很 多 信息 量 ， 因 此 不 应 该 给 予 像 “images” 这 
样 不 经 浓 出 现在 各 种 文本 中 的 词语 一 样 的 权重 。 最 佳 的 选择 是 删除 所 有 这 样 的 高 频 词 场 , 因为 它 
们 对 于 区 分 文本 并 没有 多 大 帮助 。 


由 于 这 是 文本 处 理 中 的 一 个 常见 步骤 ， 因 此 在 countVectorizer 中 有 一 个 简单 的 参数 可 以 
完成 这 个 任务 ， 如 下 所 示 : 

















>>> vectorizer = CountVectorizer (min df=1, stop words='english') 


如 采 清 楚 地 知道 要 删除 什么 类 型 的 信用 词 ， 你 还 可 以 传 入 一 个 停 用 词 列表 。 倘 硅 设置 
stop_words 为 “english”， 那 么 将 会 使 用 一 个 包含 318 单 词 的 英文 停 用 词 表 。 要 弄 清 它们 具体 是 
哪些 词语 ， 你 可 以 使 用 get_stop_words () 函数 : 











>>> sorted(vectorizer.get_ stop words())[0:20] 

['a', 'about', 'above', 'across', 'after', 'afterwards', 'again', 
'against', 'all', 'almost', 'alone', 'along', 'already', 'also', 
'although', '‘'always', 'am', 'among', 'amongst', 'amoungst'] 


这 样 ， 新 的 词语 列表 就 减少 了 7 个 词 培 : 


[u'actually', u'capabilities', u'contains', u'data', u'databases', 
uUu'images', u'imaging', u'interesting', u'llearning', u'machine', 
u'PpPermanently', u'post', u'provide', u'safe', u'storage', u'store', 


u'stuff', u'toy'] 


在 没有 保 用 词 的 情况 下 ， 我 们 可 以 得 到 以 下 相似 度 测量 值 : 








=== Post 0 with dist=1.41: This is a toy post about machine learning. 
Actually, it contains not much interesting stuff. 

=== Post 1 with dist=0.86: Imaging databases provide storage 
capabilities. 

=== Post 2 with dist=0.86: Most imaging databases safe images 
permanently. 
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= Post 3 with dist=0.77: Imaging databases store data. 

= Post 4 with dist=0.77: JImaging databases store data. Imaging 
databases store data. Imaging databases store data. 

Best post is 3 with dist=0.77 


帖子 2 现在 与 帖子 1 旗 或 相当 。 综合 来 说 , 效果 并 没有 明显 的 改变 , 这 是 因为 出 于 演示 的 目的 ， 
我 们 的 帖子 都 很 短 。 但 如 果 我 们 使 用 真实 数据 ， 那 这 将 会 变 得 非 弟 重要。 


3.2.5 ” 词 干 处 理 


有 一 件 事 情 需要 注意 , 那 就 是 ,我 们 把 语义 类 似 但 形式 不 同 的 词语 当做 了 不 同 的 词 进 行 统计 。 
例如 ， 帖 子 2 包含 “imaging” 和 “images”。 如 采 把 它们 放 在 一 起 统计 ， 束 会 更 有 道理 。 毕 苋 ,， 它 
们 指 问 的 是 同一 个 概念 。 

我 们 和 需要 一 个 函数 将 词语 归 约 到 特定 的 词 干 形式 。Scikit 并 没有 默认 的 词 干 处 理 癌 。 我 们 可 
以 通过 自然 语言 处 理工 具 包 ( NLTK ) 下 载 一 个 免费 的 软件 工具 包 。 它 提供 了 一 个 很 容易 通信 
CountVectorizez 的 词 干 处 理 和 大。 

















1. 安装 和 使 用 NLTK 


http:/nltk.org/installhtml 中 详细 介绍 了 如 何在 操作 系统 中 安 半 NLIK。 总 的 来 说 , 你 需要 安装 
两 个 程序 包 NLTK 和 PyYAML。 


如 朱 要 检查 自己 的 安装 是 否 成 功 ， 那 么 需要 打开 一 个 Python 解释 带 并 键入 如 下 命令 : 














>>> import nltk 


RS 你 可 以 在 Python Text Processing with NLTK 2.0 Cookbook 中 找到 一 个 很 棒 的 
A NLIK 教 程 ,要 想 试 验 一 下 词 干 处 理 器 ,你 可 以 访问 本 书 的 网 址 http://text-processing. 
com/demo/stem/ 。 








NLIK 中 有 各 种 不 同 的 词 干 处 理 融 。 这 是 很 必要 的 ， 因 为 每 种 语言 都 有 一 些 不同 的 词 干 处 理 
规则 o 对 于 英语 ， 我 们 可 以 使 用 SnowballStemmer.,。 


>>> import nltk.stem 

>>> s= nltk.stem.SnowballStemmer('english') 
>>> s.stem("graphics") 

u'graphic,' 

>>> s.stem("imaging") 

U'imag 

>>> s.stem("image") 

U'imag 

>>> s.stem("imagination")u'imagin' 
>>> s.stem("imagine") 

uUu'imagin' 
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| 词 干 处 理 的 结果 并 不 一 定 是 有 效 的 英文 单词 。 


它 也 可 以 处 理 动词 ， 如 下 所 示 : 


>>> s.stem("buys") 





u'buy' 

>>> s.stem("buying") 
u'buy' 

>>> s.stem("bought") 
u'bought' 


2. 用 NLTK 词 干 处 理 器 拓展 词 同 量 


在 把 帖子 传人 countVectorizer 之 前 ,我 们 需要 对 它们 进行 词 干 处 理 。 该 类 提供 了 几 种 多 
子 ， 我 们 可 以 用 它们 定制 预 处 理 和 词语 切 分 阶段 的 操作 。 预 处 理 融 和 词语 切 分 估 可 以 当做 参数 
传人 构造 吨 数 。 我 们 并 不 想 把 词 干 处 理 硕 放 入 它们 任何 一 个 当中 ,因为 那样 的 话 ， 之 后 我 们 还 需 
要 杀 目 对 词语 进行 切 分 和 归 一 化 。 相 反 ， 我 们 可 以 通过 改写 bui1ld_analyzer 方 法 来 实现 ， 如 下 
所 不 : 

>>> import niltk.stem 

>>> english stemmer = nltk.stem.SnowballStemmer('english') 

>>> class StemmedCountVectorizer (CountVectorizer): 

def build analyzer (self): 
analyzer = super (StemmedCountVectorizer, self) .build analyzer() 


有 return lambda doc: (english stemmer.stem(w) for w in analyzer (doc)) 
>>> vectorizer = StemmedCountVectorizer(min df=1, stop words='english') 


按照 如 下 步骤 对 每 个 帖子 进行 处 理 : 

(1) 在 预 处 理 阶段 将 原始 帖子 变 成 小 写字 母 形 式 ( 这 在 父 类 中 完成 ); 

(2) 在 词语 切 分 阶段 提取 所 有 单词 (这 在 父 类 中 完成 ); 

(3) 将 每 个 词语 转换 成 词 干 形式 。 

结果 中 减少 了 一 个 特征 ， 这 是 因为 “images” 和 “imaging” 合 并 成 了 一 个 。 特 征 名 称 集 合 
如 下 所 示 : 














[u'actual', u'capabl', u'contain', u'data', u'databas', u'imag', 
u'interest', u'learn', u'machin', u'perman', u'post', u'provid', 
u'safe', u'storag', u'store', u'stuff', u'toy'l] 


我 们 运行 这 个 经 过 词 干 处 理 的 回 量 化 处 理 带 之 后 会 发 现 ,“imaging” 与 “images” 的 合并 揭 
示 出 事实 上 帖子 2 是 与 新 帖子 最 接近 的 ， 因 为 它们 运用 了 两 次 概念 “imag ”: 


=== Post 0 with dist=1.41: This is a toy post about machine learning. 
Actually, it contains not much interesting stuff. 
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=== Post 1 with dist=0.86: Imaging databases provide storage 
capabilities. 

=== Post 2 with dist=0.63: Most imaging databases safe images 
permanently. 

= Post 3 with dist=0.77: Imaging databases store data. 


= Post 4 with dist=0.77: Imaging databases store data. Imaging 
databases store data. Imaging databases store data. 
Best post is 2 with dist=0.63 


3.2.6 ”信用 词 兴 香 剂 


现在 我 们 有 了 一 个 合理 的 方式 , 从 充满 噪声 的 文本 帖子 中 提取 紧凑 的 回 量 。 让 我 们 回 过 头 来 
考虑 一 下 这 些 特 征 的 具体 含义 是 什么 。 


特征 值 就 是 词语 在 帖子 中 出 现 的 次 数 。 我 们 默默 地 假定 较 大 的 特征 值 意味 看 这 个 词语 对 帖子 
更 为 重要 。 但 是 诸如 “subject” 这 样 的 在 每 个 帖子 中 都 出 现 的 词语 是 怎么 回 事 呢 ? 好 吧 ， 我 们 可 
以 通过 max_df 参 数 让 countVectorizer 把 它 也 删 挥 。 例 如 ， 我 们 可 以 将 它 设 为 0.9， 那么 所 有 
出 现在 超过 90% 的 帖子 中 的 词语 将 会 被 忽略 掉 。 但 是 出 现在 89% 的 帖子 中 的 词语 怎么 办 呢 ? 我 们 
要 把 max_qdf 设 得 多 低 呢 ?” 这 里 的 问题 在 于 , 虽然 我 们 设置 了 一 个 参数 , 但 总 会 遇 到 这 样 的 问题 : 
一 些 词语 正好 要 比 其 他 词语 更 具有 区 分 性 。 


这 只 能 通过 统计 每 个 帖子 的 词 频 ， 并 且 对 出 现在 多 个 帖子 中 的 词语 在 权重 上 打折 扣 来 解决 。 
换 句 话说 ， 当 菏 个 词语 经 营 出 现在 一 些 特定 帖子 中 ,而 在 其 他 地 方 很 少 出 现 的 时 候 , 我 们 会 赋 也 
该 词语 较 蜗 的 权 值 。 


这 正 是 词 频 - 反 转 文 档 频 率 ( TF-IDF ) 所 要 做 的 ; TF 代表 统计 部 分 ， 而 IDF 把 权重 折扣 考虑 
了 进去 。 一 个 人 简单 的 操作 如 下 所 示 : 
>>> import scipy as sp 
>>> def tfidf (term, doc, docset): 
tf = float(doc.count (term))/sum(doc.count (w) for w in docset) 
idf = math.log(float(len(docset))/(len([doc for doc in docset 


if term in doc]))) 
return tf * idf 


在 下 列 文档 集合 aocset ( 包含 三 个 文档 并 且 已 经 进行 过 词语 切 分 ) 中 ,我们 可 以 看 到 这 些 
词语 已 经 被 区 别 对 待 ， 尽 管 它们 在 每 篇 文档 中 都 等 频率 出 现 。 


>>> a, abb, abc 二 ["a"], ["a", "pb", "pb"], [人 "pb", nme] 


























>>> D = [a, abb, abcl 


>>> print (tfidf ("a", a, D)) 


0.0 
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>>> print (tfidf("b", abb, D)) 
0.270310072072 

>>> print (tfidf("a", abc, D)) 
0.0 

>>> print (tfidf("b", abc, D)) 


0.135155036036 





>>> print (tfidf("c", abc, D)) 
0.366204096223 


显而易见 ,a 几乎 无 处 不 在 ， 所 以 它 在 任何 文档 中 都 没有 什么 实际 意义 。 相 对 于 文档 abc，b 
对 文档 abb 更 为 重要 ， 因 为 它 在 abb 中 出 现 了 两 次 。 


在 现实 场景 中 ， 还 有 比 上 述 例子 更 多 的 边 凶 情况 需要 处 理 。 感 谢 Scikit， 我 们 并 不 需要 考虑 
这 些 问题 ， 因 为 它们 已 经 很 好 地 把 它们 封装 在 TfidfVvectorizer (继承 月 CountVectorizer ) 
里 了 。 训 无 疑问 ， 我 们 不 想 错过 我 们 的 词 干 处理 需 。 

>>> from sklearn.feature extraction.text import TfidfVectorizer 


>>> class StemmedTfidfVectorizer (TfidfVectorizer): 
def build analyzer (self): 








analyzer = super (TfidfVectorizer, 
self) .build analyzer () 
return lambda doc: ( 
english stemmer.stem(w) for w in analyzer (doc)) 
>>> vectorizer = StemmedTfidfVectorizer (min df=1, 
stop _ words='english', charset error='ignore') 


进行 这 些 操作 后 ,我 们 得 到 的 文档 回 量 不 会 再 包含 词语 统计 值 。 相 反 , 它 会 包含 每 个 词语 的 
TF-IDF 值 。 


3.2.7 ”我们 的 成 果 和 目标 


我 们 现在 的 文本 预 处 理 过 程 包含 以 下 步 又 : 


(1) 切 分 文本 ; 

(2) 扔 掉 出 现 过 于 频繁 ， 而 又 对 检测 相关 帖子 没有 帮助 的 词语 ; 
(3) 扔 掉 出 现 频 率 很 低 ， 只 有 很 小 可 能 出 现在 未 来 帖子 中 的 词语 ; 
(4) 统计 剩余 的 词语 ; 

(5) 考虑 整个 语 料 集合 ， 从 词 频 统计 中 计算 TF-IDF 值 。 


再 次 茶 喜 目 己 。 通 过 这 个 过 程 ， 我 们 将 一 堆 充 满 噪 声 的 文本 转换 成 了 一 个 催 明 的 特征 表示 。 
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然而 ， 虽 然 词 袋 模型 及 其 扩展 简单 有 效 ， 但 仍然 有 一 些 缺 点 需要 我 们 注意 。 这 些 缺 点 如 下 
所 示 。 


口 它 并 不 涵盖 词语 之 则 的 关联 关系 。 采 用 之 前 的 问 量化 方法 , 文本 “Carhits wall” 和 “Wall 
hits car” 会 具有 相同 的 特征 癌 量 。 

口 它 没 法 正确 捕捉 否定 关系 。 例 如 ,文本 “Iwilleaticecream” 和 “I willnoteatice cream”， 
尽 窒 它们 的 意思 截然 相反 ,但 从 特征 回 量 来 看 它们 非常 相似 。 这 个 问题 其 实 很 容易 解决 ， 
只 需要 既 统 计 单 个 词语 ( 又 叫 unigrams )， 又 考虑 bigrams (成 对 的 词 场 ) 或 者 trigrams (一 
行 中 的 三 个 词语 ) 即 可 。 

口 对 于 拼写 错误 的 词语 会 处 理 失败 。 尽 管 该 者 能 够 很 清楚 地 意识 到 “database” 和 “databas” 
传递 了 相同 的 意思 ， 但 是 我 们 的 方法 却 把 它们 当做 完全 不 同 的 词语 。 


为 简单 起 见 ， 我 们 仍然 使 用 现 有 的 方法 ， 由 此 现在 可 以 高 效 地 构建 聚 类 复 了 。 





























最 后 , 我 们 得 到 了 特征 癌 量 , 我 们 相信 它 足 以 捕捉 到 帖子 的 特征 。 有 很 多 方法 可 以 把 帖子 聚 
合 分 组 ， 这 并 不 奇怪 。 多 数 聚 类 算法 都 属于 下 面 两 个 方法 之 一 : 局 平和 层次 聚 类 。 

书 平 聚 类 会 将 帖子 分 成 一 系列 相互 之 间 没 有 关联 的 禾 。 它 的 目标 是 通过 一 个 划分 , 使 一 个 复 
中 的 帖子 相互 之 间 非 常 相似 , 而 所 有 不 同 秘 中 的 帖子 很 不 相似 。 很 多 遍 平 坚 类 算法 害 要 预先 指 害 
族 的 个 数 。 

在 层次 聚 类 中 ， 并 不 需要 指定 复 的 个 数 。 相 反 ,， 层 次 聚 类 可 以 构造 出 复 之 间 的 层次 关系 。 在 
相似 帖子 类 聚 到 一 个 复 中 的 同时 ， 相 似 的 复 将 会 进一步 聚 到 一 个 超级 禾 中 。 这 个 步骤 递归 下 去 ， 
直到 只 剩 下 一 个 禾 ， 它 包含 了 所 有 东西 。 在 层次 结构 中 ， 人 们 可 以 选择 所 需要 的 复 的 个 数 。 但 这 
样 会 降低 效率 。 

Scikit 在 sklearn.cluster 包 中 提供 了 范 于 广泛 的 聚 类 方法 。 你 可 以 在 http:/Wscikit-learn.org/ 
devmodules/clustering.html 快 速 浏 览 它 们 的 优 缺 点 。 


接 下 来 ， 我 们 将 会 使 用 局 平 聚 类 方法 K 均 值 ， 并 试验 一 下 所 需 的 禾 个 数 。 

















3.3.1 均值 


K 均 值 是 应 用 最 广泛 的 一 个 局 平 聚 类 算法 。 当 使 用 所 需 的 复 个 数 num_clusters 进 行 初始 化 
之 后 ， 该 算法 把 这 个 值 作为 族 质 心 的 数目 。 起 初 , 它 选 出 任意 num_clusters 个 帖子 ， 并 将 它们 
的 特征 癌 量 作为 这 些 族 的 质心 。 然 后 它 过 历 其 他 所 有 帖子 , 并 将 离 它 们 最 近 的 质心 所 在 的 艇 分 配 
给 它们 。 再 次 ， 它 将 每 个 质心 移 同 该 禾 中 所 有 特征 回 量 的 中 心 点 。 当 然 ， 这 将 会 改变 禾 的 分 配 。 
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一 些 帖 子 现在 距离 为 一 个 艇 更 近 了 。 因 此 该 算法 将 会 更 新 这 些 帖 子 的 入 分 配 。 只 要 质心 移动 相当 
一 段 距 离 ， 就 可 以 做 到 这 一 点 。 经 过 一 定 的 迭代 ， 当 移动 量 低 于 一 定 国 值 的 时 候 , 我 们 束 认 为 聚 
类 已 经 收敛 了 。 


下 载 示例 代码 
< 如 果 你 是 通过 http:/www.packtpub.com 的 注册 账户 购买 的 图 书 , 你 可 以 从 该 
账户 中 下 载 你 购买 过 的 所 有 Packt 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 
本 书 ,， 你 可 以 访问 http://www.packtpub.com/support 并 进行 注册 , 我 们 将 会 给 你 发 
送 一 封 附 有 示例 代码 文件 的 电子 邮件 。 





让 我 们 通过 一 个 人 简单 的 例子 来 验证 这 个 算法 , 这 个 例子 包含 只 有 两 个 词语 的 帖子 。 下 图 中 的 
每 个 数据 点 都 代表 一 个 文档 : 


Vectors 


oy 
© 
G 
三 
| 
O 
oD 
过 
i 
© 
© 

O 





} 1 和 
Occurrence word 1 


经 过 一 次 K 均 值 迭 代 之 后 ， 以 任意 两 个 向 量 作为 起 始点 ， 将 标签 赋予 余 下 的 样本 ,然后 更 新 
复 的 中 心 ， 使 之 成 为 该 复 中 所 有 数据 点 的 中 心 点 ， 我 们 得 到 以 下 聚 类 : 
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Clustering iteration 1 


Occurrence word 2 


| 半 0) .D 
Occurrence word 1 


由 于 族 中 心 的 移动 ,我 们 必须 重新 分 配 族 的 标签 ， 并 重新 计算 族 的 中 心 点 。 在 第 二 轮 达 代 之 
后 ,得 到 以 下 聚 类 : 





Clustering iteration 2 


Occurrence word 2 





0. 0.D 
Occurrence word 1 


箭头 显示 了 簇 中 心 的 移动 。 在 这 个 例子 中 ， 经 过 5 轮 迭 代 ， 簇 中 心 点 不 再 显著 移动 (Scikit 
的 答 认 容许 国 值 是 0.000 1 )。 





在 聚 类 俘 当 之 后 , 我 们 只 需要 记录 下 艇 中 心 及 其 标识 。 当 每 个 新 文档 进来 的 时 候 ， 我 们 对 它 
行 问 量化 , 并 与 所 有 的 篮 中 心 进行 比较 。 我 们 得 到 与 新 帆 问 量 距 离 最 小 的 禾 中 心 所 在 的 族 ， 然 


后 把 这 个 族 分 配给 该 新 帖子 。 


3.3.2 ”让 测试 数据 评估 我 们 的 想 、 


为 了 测试 聚 类 效 末 , 让 我 们 抛 开 这 个 简单 的 文本 示例 , 寻找 一 个 可 以 模拟 所 期 每 的 能 够 测试 
我 们 方法 的 数据 集 。 为 此 , 我 们 需要 一 些 已 经 类 聚 好 的 关于 扩 术 话题 的 文档 。 这 样 ， 之 后 我 们 在 
得 到 的 帖子 上 应 用 算法 时 ,就 可 以 检验 算法 的 效果 是 否 符 合 预期 。 


20newsgroup 数 据 集 是 机 带 学 习 中 的 一 个 标准 数据 集 。 它 包含 18 286 个 帖子 , 来 自 于 20 个 不 同 
的 新 闻 组 。 在 这 些 新 闻 组 的 话题 中 ， 有 的 是 技术 话题 ， Ucomp .SYS .mac . hardware 或 sci ea 
有 的 是 政治 话题 或 和 宗教 相关 话题 ， 如 talk. politics.guns 或 soc .religion.christian。 
我 们 把 范围 限制 在 技术 话题 的 新 闻 组 中 。 如 末 我 们 假定 每 个 新 闻 组 是 一 个 复 , 那么 很 容易 测试 出 
我 们 寻找 相关 帖子 的 方法 是 否 有 效 。 


这 个 数据 集 可 以 从 http://people.csail.mit.edu/jrennie/20Newsgroups 下 载 。 而 更 简单 的 方式 是 从 
MLComp ( http://mlcomp.org/datasets/379 ) 下 载 ( 需要 人 免费 注册 )。Scikit 已 经 包含 了 定制 的 谈 取 
佑 来 谈 取 这 个 数据 集 ， 并 提供 了 非 稼 方便 的 谈 取 选项 。 


这 个 数据 集 是 用 ZIP 文 件 形式 存放 的 :dataset-379-20news-18828 WJQIG.zip。 我 们 需要 解压 
得 到 文件 夹 379， 它 包含 这 个 数据 集 。 我 们 还 要 告诉 Scikit 数 据 目 录 的 路 径 。 它 包含 一 个 原 信息 文 
件 和 3 个 目录 : test、train 和 raw。 测 试 和 训练 目录 将 整个 数据 集 切 分 成 60% 的 训练 和 40% 的 测试 帖 
子 。 为 方便 起 见 ，dqataset 模 块 还 包含 了 曙 数 fetch_20newsgroups， 它 将 数据 下 载 到 预期 目 
录 中 。 























http://mlcomp.org 是 一 个 用 于 在 多 种 数据 集 上 比较 机 器 学 习 算 法 程序 的 网 

站 。 它 有 两 个 目的 : 找到 正确 的 数据 集 来 调 优 机 器 字 习 程序 ,以 及 探究 其 他 人 如 

= 何 使 用 某 个 特定 的 数据 集 , 例 如 ,你 可 以 看 到 他 人 的 算法 在 特定 数据 集 上 的 效果 ， 
并 与 之 比较 。 


在 读 取 数据 集 的 时 候 ， 可 以 设置 环境 变量 MLCOMP_DATASETS_HOME， 或 者 通过 mlcomp_root 
参数 直接 指定 路 径 ， 如 下 所 示 : 


>>> import sklearn.datasets 

>>> MLCOMP DIR = Ir"D: \data" 

>>> data = sklearn.datasets.load mlcomp ("20news-18828", mlcomp_root=MLCOMP_DIR) 

>>> print (data.filenames,) 

array(['D:\\data\\379\\raw\\comp.graphics\\1190-38614', 
'D:\\data\\379\\raw\\comp.graphics\\1383-38616', 
'D:\\data\\379\\raw\\alt.atheism\\487-53344', 


'D:\\data\\379\\raw\\rec.sport.hockey\\10215-54303', 


50 第 3 章 聚 类 : 寻找 相关 的 帖子 


'D:\\data\\379\\raw\\sci.crypt\\10799-15660', 
'D:\\data\\379\\raw\\comp.os.ms-windows .misc\\2732-10871'],， 
qtype=' |S68 ' ) 
>>> print (len(data.filenames)) 
18828 
>>> data.target names 


['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 
'Comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 
'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 
'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', sci.space', 
'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 
'talk.politics.misc', 'talk.religion.misc'] 

SA 、 » >» ,hh 人 YL _ 一、 王公 
我 们 可 以 在 训练 和 测试 集合 中 进行 选取 ， 如 下 所 示 : 
>>> train data = sklearn.datasets.load mlcomp ("20news-18828", "train", 


mlcomp_root=MLCOMP_DIR) 

>>> print (len(train data.filenames)) 

13180 

>>> test data = sklearn.datasets.load mlcomp ("20news-18828", 
"test", mlcomp_ root=MLCOMP_DIR) 

>>> print (len(test data.filenames)) 

5648 


为 方便 起 见 ， 我 们 把 范围 限制 在 某 些 新 闻 组 中 ， 使 整个 实验 流程 更 短 。 我 们 可 以 通过 


categories 人 参数 实现 这 一 点 : 





>>> groups = ['comp.graphics', 'comp.os.ms-windows.misc', comp .sys . 
ibm.pc.hardware', 'comp.sys.ma c.hardware', 'comp.windows.x', 'Ssci. 
space'] 

>>> train data = sklearn.datasets.load mlcomp("20news-18828", "train", 


mlcomp_root=MLCOMP_ DIR, categories=groups) 
>>> print (len(train data.filenames)) 
3414 


3.3.3 ”对 帖子 聚 类 


你 肯定 已 经 注意 到 了 一 件 事 一 一 真实 数据 含有 很 多 噪声 。 新 闻 组 数据 也 不 例外 。 它 甚至 包含 
了 不 合法 的 字符 ， 这 会 导致 UnicodeDecodeError。 


我 们 必须 要 让 回 量 化 处 理 带 忽略 它们 : 








>>> vectorizer = StemmeadqTf1idqfVector1Izer (mlin_ df=10, max df=0.5, 
stop _ words='english', charset error='ignore') 

>>> vectorized = vectorizer.fit transform(dataset.data) 

>>> num samples, num features = vectorized.shape 


>>> print("#samples: %d, #features: %d" % (num samples, num features)) 
#samples: 3414, #features: 4331 


我 们 现在 有 一 个 大 小 为 3414 的 帖子 池 ， 每 个 帖子 的 特征 癌 量 的 维度 是 4331。 这 些 就 是 K 均 值 
算法 的 输入 。 本 章 中 我 们 把 簇 的 大 小 固定 在 50。 希望 你 可 以 囊 着 好 奇 心 去 尝试 不 同 的 值 ， 把 它 当 


3.4 解决 我 们 最 初 的 难题 $1 


做 一 个 练习 。 如 下 列 代 码 所 示 : 


>>> num clusters = 50 

>>> from sklearn.cluster import KMeans 

>>> km = KMeans (n_ clusters=num clusters, init='random', n_ init=1, 
verbose=1) 

>>> km.fit(vectorized) 


就 是 这 样 。 在 拟 合 之 后 ， 我 们 可 以 从 km 的 成 员 变 量 中 获得 聚 类 信息 。 针 对 每 个 拟 合 过 的 帖 
子 癌 量 ，km.1labels_ 都 给 出 了 一 个 对 应 的 整数 标签 : 


>>> km.labels 








array([33, 22, 17, ..., 14, 11, 39]) 
>>> km.labels_ .shape 
(3414 ，) 


禾 的 中 心 可 以 通过 km.cluster_centers_ 访 问 。 


在 下 一 节 中 我 们 将 会 学 习 如 何 通 过 km.predict 给 新 来 的 帖子 分 配 一 个 艇 。 





3.4 解决 我 们 最 初 的 难题 


现在 综合 前 面 所 学 到 的 知识 ， 通 过 下 面 这 个 新 帖子 (分 配给 变量 new_post ) 来 演示 一 下 我 
们 的 系统 。 


Disk drive problems. Hi, I have a problem with my hard disk. 





After 1 year it is working only sporadically now. 

I tried to format it, but now it doesn't boot any more. 
Any ideas? Thanks. 

如 前 所 述 ， 在 预测 标签 之 前 和 完 把 这 个 帖子 向 量化 ， 如 下 : 


>>> new_post vec = vectorizer.transform( [new post] ) 





>>> new_post_ label = km.predict (new post vec) [0] 


既然 有 了 聚 类 信息 ,我 们 并 不 需要 用 new_post_vec 和 所 有 帖子 的 向 量 进行 比较 。 相 反 , 我 
们 只 需要 专注 于 同一 个 衣 中 的 帖子 。 让 我 们 从 原始 数据 集中 取出 它们 的 索引 。 


>>> similar_ indices = (km.labels ==new post label) .nonzero() [0] 


括号 中 的 比较 操作 可 以 得 到 一 个 布尔 型 数组 ，nonzero 将 这 个 数组 转化 为 一 个 更 小 的 数组 ， 
它 包 含 True 元 素 的 索引 。 


然后 使 用 similar_indeces 简 单 地 构建 一 个 帖子 列表 ， 以 及 它们 的 相似 度 分 值 , 如 下 所 示 : 


>>> similar = (上 [] 




















>>> for i in similar indices: 
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dist = sp.linalg.norm( (new _ post vec - vectorized[i]) .toarray()) 
. similar.append((dist, dataset.datal[1il])) 
>>> similar = sorted (similar) 
>>> print (len(similar)) 
44 


我 们 发 现 族 中 有 44 个 帖子 .为 了 尽快 给 用 户 一 个 直观 印象 ,告诉 他 们 相似 帖子 是 什么 样子 的 ， 
我 们 把 最 相似 的 帖子 (show_at_1 )， 最 不 相似 的 帖子 ( show_at_3 )， 以 及 它们 之 间 的 帖子 
(show_at_2 ) 呈现 出 来 。 它 们 都 来 自 于 同一 个 艇 ， 如 下 所 示 : 





>>> Show at 1 = similar[0] 
>>> Show at 2 = similar[len(similar)/2] 
>>> Show at 3 = similar[-1|] 
这 个 表 显 示 了 这 些 帖子 以 及 它们 的 相似 值 : 
位 置 相似 度 帖子 节选 
] 1.018 BOOT PROBLEM with IDE controller 
Hi ， 


I've got a Multi I/O card (IDE controller + serial/parallel interface) 
and two floppy drives (5 1/4, 3 1/2) and a Quantum ProDrive 80AT connected 
to it. I was able to format the hard disk, but I could not boot from it. 
I can boot from drive A: (which disk drive does not matter) but if I remove 
the disk from drive A and press the reset switch, the LED of drive A: 
continues to glow, and the hard disk is not accessed at all. I guess this 
must be a problem of either the Multi I/o card\nor floppy disk drive 
settings (jumper configuration?) Does someone have any hint what could 
be the reason for it. [...] 


2 1.294 IDE Cable 


I Just bought a new IDE hard drive for my System to go with the one I already 
had. My problem is this. My system only had a IDE cable for one drive, 
so I had to buy cable with two drive connectors on it, and consequently 
have to switch cables. The problem is, the new hard drive\'s manual refers 
to matching pin 1 on the cable with both pin 1 on the drive itself and 
pin 1 on the IDE card. But for the life of me I cannot figure out how to 
tell which way to plug in the cable to align these. Secondly, the cable 
has like a connector at two ends and one between them. I figure one end 
goes in the controller and then the other two go into the drives. Does 
it matter which I plug into the "master" drive and which into the "Slave"? 
any help appreciatedqd [...] 


3 1.375 Conner CP3204F info please 


How to change the cluster size Wondering if somebody could tell me if we 
can change the cluster size of my IDE drive. Normally I can do it with 
Norton's Calibrat on MFM/RLL drives but dunno if I can on IDE too. [...] 


这 些 峰 于 是 如 何 反 映 出 相似 度 分 值 的 , 是 一 件 所 有 趣 的 事 恒 。 第 一 个 帖子 包含 所 有 出 现在 新 
帖子 中 的 重要 词语 。 第 a eh a en gt 
个 帖子 只 有 一 点 关联 性 。 然 而 ， 我们 可 以 说 ， 这 三 个 帖子 跟 新 帖子 都 属于 同一 个 领域 。 

















换个 角度 看 噪声 


我 们 不 应 期 竺 完美 的 聚 类 。 从 某 种 意义 上 说 ， A 新 闻 组 的 帖子 ( 例如 ， 
comp.graphics ) 聚 类 到 了 一 起 。 对 于 我 们 不 得 不 面 对 的 噪声 ， 有 一 个 例子 可 以 快速 地 给 我 们 
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一 个 直观 印象 : 
>>> post_group = zip(dataset.data, dataset.target) 
>>> z = (len(post[0]), post[0], dataset.target names[lpost[1]]) for 


Dost in post_group 
>>> print (sorted(z)[5:7]) 


[(107, 'From: "kwansik kim" <kkim@cs.indiana.edu>\nSubject: Where 
1S FAQO ?\n\nWhere can I find it ?\n\nThanks, Kwansik\n\n', 'comp. 
graphics'), (110, 'From: lioness@maple.circa.ufl.edu\nSubject: What is 


3d0?\'n\n\nSomeone Please fill me in on what 3do.\n\nThanks, \n\nBH\n', 
Comp .Graphics')] 


对 这 两 个 帖子 ， 夺 只 考虑 经 过 预 处 理 步 嗓 的 词语 的 话 ， 这 里 并 没有 真正 地 表示 出 ， 它 们 属 


于 comp .graphics: 





>>> analyzer = vectorizer.build analyzer() 

>>> list(analyzer(z[5] [1])) 

[u'kwansik', u'kim', u'kkim', u'cs', u'indiana', u'edu', u'subject', 
u'faq', u'thank', u'kwansik'] 

>>> list(analyzer(z[6][1])) 

[u'lioness', u'mapl', u'circa', u'ufl', u'edu', u'subject', u'3do', 
u'3do', u'thank', u'bn'] 


这 里 只 经 过 了 词语 切 分 、 大 小 写 转换 和 停 用 词 删除 等 步骤 。 如 果 我 们 把 能 用 min_dqf 和 
max_dqf 过 滤 邱 的 词语 也 删 去 〈 这 个 后 续 会 由 fit_transform 完 成 )， 那 么 情况 会 变 得 更 精 : 





>>> list(set(analyzer(z[5] [1])).intersectionl( 
Vectorizer.get _ feature names ())) 

[u'cs', u'faq', u'thank'] 

>>> list(set(analyzer(z[6][1])).intersectionl 


Vectorizer.get_ feature names ())) 

[u'bh', u'thank'l] 

此 外 ， 多 数 词语 在 其 他 帖子 中 出 现 的 频 座 也 都 很 高 。 这 个 我 们 可 以 查看 一 人 IDF 信 。 请 记 住 
TF-IDF 值 越 高 ， 词 声 在 帖子 中 的 区 分 性 就 越 大 。 同 时 ， 既 然 IDF 在 这 里 是 一 个 乘法 因 了 于 ， 如 采 它 
的 值 较 小 ， 那 么 它 就 是 在 传递 一 个 信号 : 该 词语 总 体 上 没有 什么 价值 。 





>>> for term in ['cs', 'faq', 'thank', 'bh', 'thank'l]: 
print('IDF(%s)=%.2f'% (term, 
vectorizer. tfidf.idf [vectorizer.vocabulary_[term]|]) 
IDF (cs)=3.23 
IDF (faq)=4.17 
IDF (thank)=2.23 
IDF (bh)=6.57 
IDF (thank)=2.23 


所 以 ,， 除了 bn ( 它 的 值 接近 IDF 的 最 高 值 6.74 )， 这 些 词 语 都 没有 多 大 的 区 分 度 。 也 就 是 说 ， 
属于 不 同 新 闻 组 的 帖子 将 会 类 聚 到 一 起 。 


然而 , 这 对 于 我 们 的 目标 并 没有 太 大 帮助 ,因为 我 们 只 对 减少 与 新 帖子 做 比较 的 帖子 数量 感 
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兴趣 。 毕 范 ， 对 于 来 日 于 训练 数据 中 的 特定 新 闻 组 ， 我 们 并 没有 特别 的 兴趣 。 








那么 其 他 参数 呢 ?” 我 们 能 否 调 整 它 们 来 得 到 更 好 的 结果 ? 


当然 可 以 。 我 们 当然 可 以 调整 族 的 个 数 或 试验 问 量 化 处 理 姨 的 max_features 参 数 (你 应 该 
尝试 一 下 ! )。 同 样 ， 我 们 还 能 试验 不 同 的 篮 中 心 初始 化 方法 。 在 这 里 除了 K 均 值 方法 ， 还 有 更 多 
令 人 兴奋 的 蔡 代 方法 。 例 如 ， 有 一 些 肾 类 方法 可 以 让 你 使 用 不 同 的 相似 度 衡 量 方法 ， 诸 如 余弦 
(Cosine ) 相似 度 、 皮 尔 逊 ( Pearson ) 系数 ， 或 者 Jaccard 系 数 。 这 是 一 个 令 人 兴 否 的 领域 。 

但 是 在 我 们 到 达 那 里 之 前 ， 必 须 定义 清楚 “更 好 ”具体 是 指 什 么 。Scikit 有 一 个 完整 的 工具 
包 ， 专 门 用 于 这 个 定义 。 这 个 包 叫 做 sklearn .metrics， 它 包含 各 种 不 同 的 指标 ， 用 来 衡量 聚 
类 的 质量 。 也 许 ， 现 在 我 们 首先 就 要 看 一 下 这 个 库 的 源 代码 。 





























3.6 小结 


从 聚 类 上 的 预 处 理 , 到 把 有 品 文 本 转化 为 有 意义 的 何洁 问 量 表示 的 解决 方案 , 这 是 一 个 艰难 
的 过 程 。 回 头 看 一 下 我 们 为 最 终 能 够 聚 类 所 做 的 工作 , 它 占 了 整个 任务 的 一 半 还 多 。 但 是 在 这 个 
过 程 中 , 我 们 学 习 到 了 很 多 关于 文本 处 理 的 知识 , 以 及 简单 词 频 统 计 在 有 噪声 的 真实 数据 上 可 以 
汕 你 走 得 很 远 的 原因 。 


由 于 Scikit 有 极其 强大 的 程序 包 ， 这 个 过 程 已 经 相当 平缓 。 不 过 仍 有 很 多 东西 可 以 探索 。 本 
章 中 我 们 只 抓 住 了 它 的 表面 功能 。 在 下 一 章 里 我 们 将 会 看 到 它 更 大 的 威力 。 























主题 模型 





在 前 一 革 中 我 们 将 文本 肾 类 成 组 ,这 是 一 个 非常 有 用 的 方法 ,但 并 不 是 在 任何 情况 下 都 适用 。 
为 聚 关 会 让 每 段 文本 恰好 属于 一 个 徐 。 而 本 书 是 天 于 机 内 学 习 和 Python 的 ,那么 ,我 们 是 应 该 
把 它 归 到 与 Python 相 关 的 作品 中 呢 ， 还 是 与 机 太 相 关 的 作品 中 呢 ? 在 纸 质 图 书 时 代 ,， 书店 逢 要 决 
定 把 这 本 书 存 放 在 哪里 。 然 而 ， 在 互联 网 存储 时 代 ， 答 案 却 是 ， 这 本 书 既 属于 机 兴学 习 叉 属于 
Python。 这 本 书 可 以 在 两 个 不 同 的 类 别 中 列 出 。 但 是 ， 我 们 是 不 会 把 它 列 在 食品 类 别 中 的 。 


在 本 章 中 , 我 们 将 学 习 一 些 新 方法 , 这 些 方法 不 是 用 来 把 对 象 肾 类 , 而 是 把 它们 放 入 几 个 组 
(叫做 主题 ) 中 。 我 们 还 会 学 到 如 何 得 到 中 间 的 主题 ， 这 包括 文本 的 中 心 主题 和 其 他 仅 被 模糊 提 
到 的 主题 《本 书 曾 很 多 次 提 到 过 画图 ， 但 它 并 不 会 像 机 天 学 习 一 样 成 为 本 书 的 中 心 主题 )。 解决 
这 类 问题 的 机 带 学 习 子 领域 叫做 主题 模型 。 









































4.1 潜在 狄 利克 雷 分 配 (LDA) 


LDA 和 LDA 很 不 入 ， 有 两 个 机 器 学 习 方 法 都 以 首 字 母 LDA 来 命名 : 潜在 狄 利克 雷 分 配 
( Latent Dirichlet Allocation ) 和 线性 判别 式 分 析 〈Linear Discriminant Analysis ); 前 者 是 一 种 主题 
模型 方法 ， 后 者 是 一 种 分 类 方法 。 这 两 者 室 无 关联 , 但 LDA 可 以 指 代 它们 中 的 任何 一 个 。 这 非常 
容易 令 人 混 消 。scikit-learn 有 一 个 子 模块 sklearn.lda, 它 可 以 用 来 实现 线性 判别 式 分 析 。 目前 ， 
scikit-learn 还 并 没有 实现 潜在 狄 利克 雷 分 配 。 

最 简单 的 主题 模型 (是 其 他 所 有 方法 的 基础 ) 就 是 潜在 犹 利 克 雷 分 配 ( LDA )。LDA 背 后 的 
数学 原理 相当 复杂 ， 我 们 并 不 想 在 这 里 深入 探讨 具体 细节 。 

对 此 感 兴 趣 且 勇于 探索 的 斌 者 ,搜索 一 下 维基 百科 就 可 以 在 如 下 链接 中 找到 这 些 算法 背后 的 
所 有 公式 : 

http://en.wikipedia.org/wiki/Latent Dirichlet allocation 


然而 , 我 们 理解 , 这 些 午 是 高 阶 内 容 , 它们 背后 都 有 一 些 改 事 。 在 本 故事 中 , 主题 是 固定 的 。 
这 么 讲 可 能 还 是 不 太 清 晰 。 有 具体 包括 哪些 文档 呢 ? 





























举 个 例子 ， 我 们 假设 现在 只 有 三 个 主题 : 


口 机 各 等 习 ; 
口 Python ; 
口 烘 培 。 


每 个 主题 那 有 一 系列 词 才 与 之 天 联 。 本 书 台 是 前 两 个 主题 的 混合 ,它们 可 能 各 占 50%。 可 以 
这 么 说 ， 在 我 们 所 写本 书 的 时 候 ， 一 半 词 声 是 从 机 带 学 习 主 题 中 挑 出 来 的 ， 而 太 一 半 来 目 Python 
主题 。 在 这 个 模型 中 ， 词 语 的 顺序 无 关 紧 要 。 


前 面 这 个 解释 是 实际 情况 的 一 个 简化 厂 ; 每 个 主题 对 每 个 词语 都 会 赋予 一 个 概率 , 所 以 当主 
题 是 机 带 学 习 或 你 培 的 时 候 ， 痢 可 能 会 用 到 “面粉 ”这 个 词 ， 但 在 你 培 主题 中 这 个 词 出 现 的 可 能 
性 时 大 。 


当然 ,我 们 并 不 知 近 痢 有 哪些 主题 。 否 则 ,这 就 是 一 个 不 同 的 而 且 简单 得 多 的 问题 。 我 们 现 
在 的 任务 是 拿 到 一 个 文本 集合 并 对 它 做 反 回 工程 , 从 中 发 现 都 有 哪些 主题 ,以 及 每 个 文档 属于 哪 
些 主题 。 














构建 主题 模型 


很 不 巧 , scikit-learn 并 不 文 持 湾 在 狄 利克 雷 分 配 。 所 以 , 我 们 将 要 使 用 Python 中 的 gensim 包 。 
gensim 是 由 Radim Rehaiek 开 发 出 来 的 。 他 是 机 器 学 习 方 面 的 科研 人 员 , 也 是 捷克 共和 国 的 顾问 。 
我 们 从 安装 该 软件 开始 介绍 。 通 过 运行 下 面 两 个 命令 中 的 任意 一 个 来 实现 安装 : 














pip install gensim 
easy_install gensim 


我 们 将 会 使 用 美国 联合 通讯 社 ( AP ) 的 新 闻 报 道 数 据 集 。 这 是 一 个 标准 的 数据 集 ， 它 在 主 
题 模 型 的 一 些 初始 工作 中 被 使 用 过 。 
>>> from gensim import corpora, models, similarities 


>>> corpus = corpora.BleiCorpus('./data/ap/ap.dat', 
'/data/ap/vocab.txt') 


语料库 就 是 预 读 进 来 的 一 个 词语 列表 : 


>>> model = models.ldamodel .LdaModel ( 
COrpus, 
num_ topics=100, 
1d2word=corpus .1i1d2word) 


这 个 一 步 过 程 会 建立 一 个 主题 模型 。 我 们 能 用 多 种 方式 探索 这 些 主题 。 我 们 可 以 通过 mogel 
[doc] 语 法 将 一 个 文档 中 出 现 的 主题 部 列 出 来 : 
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>>> topics = [modell[lc] for c¢c in corpusl 
>>> print topics[0] 
[(3, 0.023607255776894751)， 

(13, 0.11679936618551275)，, 

(19, 0.075935855202707139)， 

(92, 0.10781541687001292)] 


这 里 我 们 省 略 了 一 些 输出 信息 ， 但 输出 的 格式 就 是 一 系列 数据 对 (topic_indqex， 
topic_weight )。 我 们 可 以 看 到 在 每 篇 文档 中 只 出 现 了 一 小 部 分 主题 。 主 题 模 型 是 一 个 稀 玖 的 
模型 ， 即 便 每 个 文档 中 有 很 多 潜在 主题 ,也 只 有 一 小 部 分 会 被 用 到 。 我 们 画 出 了 一 个 主题 数 的 柱 
状 图 ， 如 下 图 所 示 。 
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稀 足 性 是 说 ， 当 你 有 一 个 很 大 的 适 阵 或 者 向 量 的 时 候 ， 基 本 上 大 多 数 的 值 都 
是 0 (或 者 小 到 可 以 近似 为 0)。 因 此 ， 在 任何 时 候 ， 只 有 一 小 部 分 数据 是 相关 的 。 

通 溃 情况 下 ， 看 起 来 规模 大 得 难以 解决 的 问题 ， 其 实 是 可 以 解决 的 ， 这 是 
因为 数据 是 稀 朴 的 。 例 如 ， 即 使 一 个 网 页 能 够 链接 到 其 他 任何 网 页 上 ， 但 链接 
关系 图 其 实 是 非常 稀 芯 的 ， 因 为 每 个 网 页 只 会 链接 到 极 小 一 部 分 网 页 上 。 








在 上 图 中 我 们 可 以 看 到 ， 大 约 150 个 文档 中 包含 了 5 个 主题 ， 大 多 数 文档 闲 盖 了 10 到 12 个 主 
题 。 没 有 文档 涉及 20 个 以 上 的 主题 。 

在 很 大 程度 上 ， 这 是 一 个 参数 的 函数 ， 叫 做 alpha 参 数 。alpha 的 确切 含义 有 一 点 抽象 ， 但 较 
大 的 alpha 值 会 导致 每 个 文档 中 包含 更 多 的 主题 。alpha 必 须 是 正 数 ， 但 通常 很 小 ， 一 般 会 小 于 1。 
gensim 会 把 alpha 值 默认 设 为 1 .0/1en (corpus)， 不 过 你 也 可 以 目 己 设置 它 ， 如 下 所 示 : 





>>> model = models.ldamodel .LdaModel ( 





Corpus, 
num topics=100, 
i1d2word=corpus .id2word, 
alpha=1) 


在 这 里 ， 这 是 一 个 较 大 的 alpha， 它 会 使 每 个 文档 具有 更 多 的 主题 。 我 们 也 可 以 用 一 个 较 小 
的 值 。 如 下 面 这 个 合并 起 来 的 柱状 图 所 示 ，gensim 的 表现 符合 预期 。 
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现在 我 们 看 到 很 多 文档 触及 了 20 至 25 个 不 同 的 主题 。 


这 些 主题 是 什么 呢 ? 从 技术 上 讲 , 它们 是 词语 上 的 多 项 式 概率 分 布 。 它 们 赋予 词 表 中 每 个 词 
语 一 个 概率 。 相 对 于 概率 低 的 词语 ， 高 概率 词语 与 该 主题 相关 性 更 大 。 


我 们 的 大 脑 并 不 擅长 根据 概率 分 布 进行 推理 ,但 是 我 们 很 容易 理解 一 系列 词语 的 意思 。 因 此 ， 








我 们 通常 使 用 一 些 高 权重 的 词语 来 概括 这 些 主题 。 这 里 列 出 了 前 10 个 主题 : 


D dress military soviet president new state capt carluccl states leader stance government 

DQ koch zambia lusaka one-party orange kochs party 1 government mayor new political 

DQ human turkey rights abuses royal thompson threats new state wrote garden president 

DQ blll employees experiments levin taxation federal measure legislation senate president 
whistleblowers sponsor 

DQ ohio july drought jesus disaster percent hartford mississipp1 crops northern valley Virginia 

DQ united percent billion year president world years states people 1 bush news 

DQ b hughes affidavit states united ounces squarefoot care delaying charged unrealistic bush 

D yeutter dukakis bush convention farm subsidies uruguay percent secretary general 1 told 


DQ Kashmir government people srinagar ndia dumps clty two Jammu-kashmir group moslem Pakistan 
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DQ workers vietnamese irish wage Immlgrants percent bargaining last island police hutton I 


尽管 第 一 眼看 上 去 令 人 藤 惧 ,我 们 依然 可 以 很 清楚 地 看 到 , 主题 并 不 是 一 些 随 便 拼 沽 的 词语 ， 
它们 是 相关 联 的 。 我 们 还 可 以 看 到 ， 这 些 主题 包含 了 一 些 陈 旧 新 闻 的 词语 ， 例 如 苏联 仍然 存在 ， 
芯 尔 巴 乔 夫 是 总 书记 。 我 们 还 可 以 用 词语 云 图 来 表示 主题 , 让 可 能 性 更 大 的 词语 在 图 上 显示 得 更 
大 。 例 如 ， 以 下 束 古 主题 的 可 视 化 表示 ， 它 包含 了 中 东 和 政治 的 主题 。 















































还 可 以 看 到 , 一些 词 语 或 许 应 该 删 挥 (例如 词语 1 )， 因 为 它们 并 不 那么 有 信息 量 〈 侣 用 词 )。 
在 主题 模型 中 ,过 小 掉 集 用 词 是 很 重要 的 ,否则 你 得 到 的 主题 可 能 包含 的 全 是 停 用 词 ,没什么 信 
县 量 。 我 们 还 和 希望 将 文本 预 处 理 成 词根 形式 ,使 复数 词 和 各 种 动词 形式 归 一 化 。 在 前 一 章 中 我 们 
已 经 介绍 了 这 个 过 程 , 你 可 以 回 过 头 去 查看 详情 。 如 时 你 有 兴趣 , 可 以 从 本 书 的 网 站 上 下 载 代码 ， 
开 尝 试 这 些 变 化 方式 ， 男 出 不 同 的 图 像 。 


























如 果 你 想 构 建 像 前 图 那样 的 词语 云图 , 那么 有 几 个 不 同 的 软件 可 以 选择 ,在 
这 里 ， 我 选择 使 用 的 是 线 上 工具 wordle (http:/www.wordle.net )， 它 可 以 生成 非 
常 富有 吸引 力 的 图 像 。 由 于 只 有 几 个 例子 , 我 还 手动 复制 粘贴 了 一 些 词语 , 但 实 

际 上 可 以 把 它 当 做 Web 服 务 直接 从 Python 中 调用 。 


4.2 ”在 主题 空间 比较 相似 度 
要 构建 像 前 图 那样 的 词语 小 插图 , 主题 本 身 就 很 有 用 处 。 这 些 可 视 化 图 形 可 以 在 较 大 的 文档 
集合 中 为 人 们 指引 方向 。 事 实 上 ， 它 们 已 经 被 用 于 此 处 了 。 


然而 , 主题 经 常会 被 当做 是 一 种 实现 万 外 一 个 目标 的 中 间 工 具 。 既 然 对 每 扁 文 档 我 们 都 预 舍 
了 它 来 目 于 每 个 主题 的 可 能 性 ,那么 可 以 在 主题 空间 中 比较 两 篇 文档 。 这 意味 厦 ， 我 们 要 根据 两 
个 文档 是 否 摘 述 相同 主题 来 判断 它们 是 否 相似 ， 而 不 是 通过 词 与 词 的 比较 。 

这 是 很 有 威力 的 ， 因 为 两 个 只 有 少量 公共 词语 的 文本 文档 实际 上 可 能 是 在 说 同一 个 主题 ， 
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只 是 用 了 不 同 的 阐述 方式 (例如 ,一 个 人 在 说 美国 总 统 ， 而 其 他 人 使 用 了 巴 拉 克 … 奥巴马 这 个 
名 字 ) 


> 主题 模型 本 身 对 可 视 化 和 数据 探索 都 很 有 用 。 在 其 他 一 些 任务 中 ， 它 们 也 
充当 着 非常 有 用 的 中 间 步 又 。 





在 这 里 , 我 们 重新 做 一 次 前 章 中 所 做 过 的 练习 , 通过 主题 来 寻找 最 相似 的 帖子 。 鉴 于 之 前 我 
们 通过 词 回 量 比较 了 两 个 文档 ， 现 在 我 们 再 通过 主题 问 量 来 比较 一 下 这 两 个 文档 。 


对 此 , 我们 把 文档 映 冉 到 主题 空间 。 这 是 说 , 我们 要 构造 一 个 主题 回 量 来 概括 这 个 文档 。 由 
于 主题 的 个 数 ( 100 ) 比 可 能 的 词语 的 个 数 要 小 ， 所 以 我 们 已 经 把 维度 降低 了 。 不 过 如 何 进行 通 
用 的 数据 降 维 本 号 就 是 一 个 重要 问题 。 我 们 会 用 一 整 草 的 内 容 来 介绍 它 。 除 了 降低 了 维度 以 外 ， 
它 在 计算 上 还 有 一 个 优势 ， 那 就 是 ， 比 较 100 维 的 主题 权重 癌 量 ， 要 比比 较 词 表 大 小 的 回 量 快 得 
多 ( 词 表 中 包含 成 干 上 万 的 词语 )。 


我 们 通过 gensim 可 以 看 到 之 前 语 料 中 所 有 文档 的 主题 是 如 何 计算 的 : 














>>> topics = [modell[lc] for cC in Corpus ] 
>>> print topics[0] 
[(3, 0.023607255776894751)， 
(13, 0.11679936618551275)， 
(19, 0.075935855202707139)， 
(92, 0.10781541687001292)1] 


我 们 用 NumPy 的 数组 来 存储 所 有 的 主题 统计 数据 ， 并 计算 两 两 之 间 的 距离 : 


>>> dense = np.zeros( (len(topics), 100), float) 
>>> for ti,t in enumerate (topics): 
for tj,v in 七 : 
dense[ti,tj] = V 


这 里 ，dqense 是 一 个 主题 的 和 矩阵。 我 们 用 SciPy 中 的 paist 柄 ss 这 是 
说 ， 通 过 调用 一 个 聘 数 ， 我 们 就 可 以 计算 出 所 有 sum( (dense[ti] - dense[tj])**2) 的 值 : 


>>> from scipy.spatial import distance 
>>> pairwise = distance.squareform(distance.pdist (dense)) 


现在 , 采用 最 后 一 个 小 技巧 , 把 距离 矩阵 对 角 线 上 的 元 素 都 设 成 较 大 的 值 ( 只 要 比 和 矩阵 中 其 
他 值守 大 就 可 以 ): 


>>> largest = pairwise.max() 
>>> for ti in range(len(topics)): 








pairwise[ti,ti] = largest+1 


完成 了 ! 针对 每 一 篇 文档 ， 我 们 轻而易举 就 可 以 找到 最 接近 的 一 个 元 系 : 
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>>> def closest_ tol(doc 1id): 
return pairwisel[ldoc id] .argmin() 


| 线 上 的 元 素 设置 成 较 大 的 值 ,前 面 这 段 代 码 将 不 会 

工作 ;这 个 函数 总 会 返回 相同 的 元 素 ,这 是 由 于 跟 它 最 相似 的 文档 就 是 它 自 己 ( 除 

非 We 情况 ， 那 就 是 两 个 元 素 具 有 完全 相同 的 主题 分 布 , 但 很 少 发 
生 ， 除 非 它们 两 个 是 完全 一 样 的 文档 )。 





例如 , 这 里 是 第 二 个 文档 ( 第 一 个 文档 没有 多 大 意义 ,因为 系统 返回 了 一 个 跟 它 非 第 相似 的 
文档 ): 


From: geb@cs.pitt.edu (Gordon Banks) 

Subject: Re: request for information on "essential tremor" and Indrol? 
In article <lqltbhbnINNnfn@life.ai.mit.edu> sundar@ai.mit.edu writes: 
Essential tremor is a progressive hereditary tremor that gets worse 
when the patient tries to use the effected member. All limbs, vocal 
cords, and head can be involved. Inderal is a beta-blocker and is 
usually effective in diminishing the tremor. Alcohol angd mysoline are 
also effective, but alcohol is too toxic to use as a treatment. 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Gordon 
Banks N3JXP | "Skepticism is the chastity of the intellect, and 
geb@cadre.dsl.pitt.edu | it is shameful to surrender it too soon." 


如 果 寻 找 最 相似 的 文档 closest_to(L1) ， 那 么 我 们 将 得 到 如 下 文档 : 


From: geb@cs.pitt.edu (Gordon Banks) 
Subject: Re: High Prolactin 


In article <93088.112203JER4@psuvm.psu.edu> JER4@psuvm.psu.edu (John 
E. Rodway) writes: 

>Any comments on the use of the drug Parlodel for high prolactin in 
the blood? 

>It can suppress secretion of prolactin. Is useful in cases of 
galactorrhea. Some adenomas of the pituitary secret too much. 

Gordon Banks N3JXP | "Skepticism is the chastity of the 
intellect, and geb@cadre.dsl.pitt.edu | it is shameful to surrender 
it too soon." 


我 们 得 到 的 是 一 个 相同 作者 号 的 天 于 药物 治疗 的 帖子 。 





对 整个 维基 百科 建 模 


最 初 的 LDA 实 现 可 能 运行 得 有 些 缓慢 , 而 现代 系统 需要 对 很 大 的 数据 集 进 行 运算 。 在 下 面 的 
gensim 文 档 中 ， 我们 要 为 整个 英语 版 的 维基 百科 ( Wikipedia ) 构建 一 个 主题 模型 。 它 的 运行 时 
间 需 要 几 个 小 时 , 不 过 即使 使 用 不 是 很 强大 的 机 器 也 可 以 完成 。 如 果 使 用 计算 机 集群 ， 我们 就 可 
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以 大 大 加 快运 算 速度 ， 后 面 会 有 一 章 详 细 介绍 这 个 处 理 过 程 。 


首先 ， 我 们 从 http:/dumps.wikimedia.org 下 和 载 整个 维基 百科 。 这 是 一 个 很 大 的 文件 〈 现 在 已 
经 超过 9 GB )， 所 以 需要 花费 一 定时 间 ， 除非 你 的 网 速 非常 快 。 然 后 ,我们 用 一 个 gensim 工 具 对 
它 建 立 索 引 : 


python -m gensim.scripts.make wiki enwiki-latest-pages-articles.xml .bz2 
wiki_en output 


在 命令 行 中 ( 而 不 是 Python 交互 窗口 ) 运 行 上 面 这 个 命令 。 索引 过 程 经 过 几 个 小 时 就 会 完成 。 
最 后 ， 我 们 可 以 去 构建 最 终 的 主题 模型 了 。 这 一 步 正 如 我 们 在 小 规模 AP 数据 集 上 所 做 的 那样 。 
由 和 人 生生 下 序 : 











>>> import logging, gensim 

>>> logging.basicConfigl( 
format='%$(asctime)s : %S$(levelname)s : %$ (message)s', 
level=logging .INFO) 


现在 ,我 们 将 预 处 理 好 的 数据 读 入 : 


>>> id2word = 
gensim.corpora.Dictionary.1load from text('wiki en output wordids.txt') 
>>> mm = gensim.corpora.MmCorpus ('wiki en output tfidf.mm') 


最 后 ， 像 以 前 那样 构建 出 LDA 模 型 : 


>>> model = gensim.models.ldamodel .LdaModel ( 
COorpus=mm, 
i1d2word=id2wordqd, 
num topics=100, 
update every=1, 
chunksize=10000,， 
passes=1) 


这 还 会 耗费 几 个 小 时 。( 可 以 在 控制 台 上 观察 到 这 个 过 程 ， 它 会 给 出 一 个 提示 ， 告 诉 你 还 需 
要 等 每 多 少时 间 。) 一 旦 完成 ， 你 可 以 把 结案 保存 到 文件 里 ， 以 后 无 需 青 重复 做 这 件 事 : 








>>> model.save('wiki lda.pkl') 
如 有 果 退 出 会 话 ， 然 后 过 会 儿 再 回来 ， 你 还 可 以 把 模型 谈 出 来 : 
>>> model = gensim.models.ldamodel .LdaModel .load('wiki_ lda.pkl') 


让 我 们 探究 一 下 其 中 的 一 些 topics: 





>>> topics = [] 
>>> for doc in mm: 
topics.append (model[docl]) 


可 以 看 到 它 依 然 是 一 个 稀 玖 的 模型 ， 即使 比 以 前 拥有 更 多 的 文档 ( 在 撰写 到 这 里 的 时 候 , 已 
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经 多 于 400 万 ): 


>>> import numpy as np 

>>> lens = np.array ([len(t) for t in topics]) 
>>> print np.mean (lens,) 

6.55842326445 

>>> print np.mean(lens <= 10) 

0.932382190219 


所 以 ,平均 下 来 每 个 文档 只 涉及 6.5 个 主题 ， 其 中 93% 的 文档 涉及 的 主题 数 小 于 等 于 10。 


如 果 你 之 前 没 看 到 过 这 些 习 语 ， 可 能 会 对 计算 一 个 比较 运算 的 均值 感到 奇 
、” 怪 。 但 这 是 计算 所 占 比 例 的 直接 方法 。 
np.mean (lens<=10) 计 算 了 一 个 布尔 数组 的 均值 。 用 数字 来 解释 的 话 ， 这 
些 布 尔 值 就 是 一 些 0 和 一 些 1。 因 此 ， 计算 结 果 的 值 域 在 0 到 1 之 间 ， 它 是 1 所 占 的 
比例 。 在 这 里 ， 它 就 是 lens 数 组 中 小 于 等 于 10 的 元 素 所 占 的 比例 。 





我 们 还 可 以 查询 出 维基 百科 中 最 沼 谈 论 的 主题 有 哪些。 痛 先 收集 一 些 主题 使 用 情况 的 统计 信息 : 


>>> counts = np.zZeros(100) 
>>> for doc top in topics: 
for ti,_ in doc top: 
本 counts[t1i] += 1 
>>> words = model.show topic(counts.argmax(), 64) 





通过 之 前 使 用 的 可 视 化 工具 ,我 们 可 以 看 到 最 常 谈 论 的 主题 是 小 说 和 故事 ,还 有 书籍 和 电影 。 
考虑 到 多 样 性 ,我 们 选择 了 不 同 的 配色 方案 。 维 基 百 科 中 多 达 25% 的 页 面 都 与 这 个 主题 有 部 分 关 
联 ( 换 句 话说 ，5% 的 词语 来 日 于 这 个 主题 ): 
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这 些 图 和 数字 是 2013 年 年 初 作者 撰写 本 书 时 得 到 的 。 但 是 由 于 维基 百科 一 直 
KY 变化 , 你 得 到 的 结果 可 能 会 有 所 不 同 , 特别 是 , 最 不 相关 的 主题 可 能 已 经 变 了 ， 
但 和 前 述 主题 很 接近 的 主题 很 可 能 依然 在 列表 中 排名 很 高 (即使 它 并 不 是 最 重要 
的 主题 )。 
或 者 ， 我 们 来 看 下 最 不 稼 讨论 的 主题 : 


>>> words = model.show topic(counts.argmin(), 64) 
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最 不 常 讨论 的 主题 是 OS ee a sn ni 
自 于 这 个 主题 。 或 许 ， 如 果 在 法 语 维基 百科 上 进行 测试 ， 我 们 将 会 得 到 一 个 完全 不 同 的 结果 。 








4.3 选择 主题 个 效 


到 目前 为 止 , 我 们 使 用 了 固定 个 数 的 主题 ( 100 )。 这 纯粹 是 一 个 随意 的 值 ; 我 们 也 可 以 采用 
20 或 200 个 主题 。 幸 运 的 是 ， 对 于 多 数 用 户 来 讲 ， 这 个 值 并 不 重要 。 如 采 你 像 我 们 之 前 那样 ， 只 
把 这 些 主 题 的 使 用 当做 一 个 中 间 步 纤 ， 那 么 系统 的 最 终 表现 极 少 会 对 主题 个 数 敏感 。 这 意味 着 ， 

只 要 你 使 用 了 足够 的 主题 , 不 管 是 用 100 个 主题 还 是 200 个 ， 从 这 个 过 程 中 得 到 的 推荐 并 没有 大 大 
差别 。100 通 第 是 一 个 比较 好 的 值 ( 20 对 于 一 般 文档 集合 来 说 太 少 了 )。 设置 alpha (a ) 值 也 是 如 
此 。 尝 试 不 同 的 值 会 改变 主题 ,但 对 于 这 种 改变 ， 最 终 的 结 来 不 会 受到 多 大 影 响 。 








主题 模型 通常 是 一 个 面向 目标 的 终端 服务 。 在 这 种 情况 下 ， 你 具体 选择 了 
哪些 参数 并 不 总 是 很 重要 。 不 同 的 主题 数 或 者 参数 值 ( 例如 alpha ) 会 得 到 效果 
几乎 相同 的 系统 。 
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如 有 果 你 想 自 己 探究 一 下 这 些 主题 , 或 者 构建 一 个 可 视 化 工具 , 你 可 能 应 该 尝试 一 下 不 同 的 取 
值 ， 看 看 哪些 值 可 以 市 给 你 最 有 用 或 最 具 吸 引力 的 结 来 。 


然而 , 还 有 一 些 方法 可 以 根据 数据 集 目 动 带 你 确定 主题 的 个 数 。 有 一 个 很 流行 的 模型 叫做 层 
次 狄 利克 雷 过 程 。 绸 一 次 ， 它 育 后 的 所 有 数学 模型 都 非 稼 复 尼 ,超出 了 本 书 的 讨论 范围 。 但 我 们 
可 以 告诉 你 的 是 ,在 该 方法 中 ,主题 本 号 是 由 数据 生成 的 ， 而 不 是 预先 将 主题 固定 ， 然 后 通过 对 
数据 的 反 回 工程 把 它们 恢复 出 来 。 当 书写 者 开始 撰写 一 个 新 文档 时 ,他 可 以 使 用 已 有 的 主题 , 也 
可 以 创建 一 个 全 新 的 主题 。 


这 意味 看 , 我 们 拥有 的 文档 越 多 , 最 后 得 到 的 主题 也 越 多 。 这 种 方式 初 看 起 来 并 不 是 很 下 观 ， 
但 思考 一 下 就 会 觉得 它 非 第 有 意义 。 我 们 是 在 学 习 主 题 时 , 样本 越 多 , 就 可 以 把 主题 切 分 得 越 细 。 
如 采 我 们 只 有 少量 的 新 闻 文 章 样 本 , 那么 体育 将 会 是 一 个 主题 。 然而 , 随 着 我 们 拥有 更 多 的 文档 ， 
我 们 就 可 以 开始 把 它们 切 分 成 一 些 独 立 的 部 分 ,例如 曲棍球 、 足 球 等 等 。 随 着 我 们 拥有 越 来 越 多 
的 数据 ,我 们 可 以 开始 对 细小 的 差别 进行 区 分 ， 从 文章 中 把 每 只 队伍 或 者 每 个 球员 分 离 出 来 。 对 
于 人 , 也 是 一 样 的 。 在 一 组 不 同 育 景 的 人 群 中 (其 中 包含 一 些 “IT 人 士 ” )， 你 可 能 会 把 他 们 放 在 
一 起 ; 在 一 个 更 大 一 点 的 分 组 中 ， 你 可 能 会 让 程序 员 和 系统 经 理 分 别 聚 在 一 起 。 在 真实 世界 中 ， 
Python 程序 员 和 Ruby 程 序 员 甚 至 会 有 各 目的 分 组 。 


有 一 个 能 够 自动 确定 主题 个 数 的 方法 叫做 层次 狄 利克 雷 过 程 (HDP ), 可 以 在 gensim 中 使 用 ， 


而 且 使 用 方法 很 简单 。 例如 前 面 实现 的 LDA 人 代码 , 我 们 只 需要 把 对 gensim.models.1ldamodel. 
LdaModel1 的 调用 替换 成 一 个 对 HdpModel 构 造 了 负数 的 调用 即 可 ， 如 下 所 示 : 
























































>>> hdp = gensim.models.hdpmodel .HdpModel (mm, id2word) 


这 样 就 可 以 了 。( 不 过 , 它 需 要 更 长 时 间 来 计算 一 一 没有 免费 的 午餐 。) 现在 除了 不 需要 给 出 
主题 个 数 ， 我 们 还 可 以 像 使 用 LDA 柑 型 一 样 使 用 这 个 模型 。 





4.4 ”小 结 


在 本 章 中 , 我 们 讨论 了 一 个 更 高 级 的 文本 分 组 方式 。 由 于 我 们 允许 每 个 文档 出 现在 多 个 分 组 
中 ， 所 以 它 比 简单 聚 类 更 为 灵活 。 我 们 使 用 gensim 探 索 了 基本 的 LDA 模 型 。gensim 是 一 个 新 程 
序 包 ， 但 将 它 整 合 进 标准 Python 的 科学 生态 系统 中 很 容易 。 


主题 模型 最 初 是 在 文本 处 理 中 开发 出 来 的 , 可 以 说 是 简单 易 收 。 但 在 第 10 草 中, 我 们 将 会 看 
到 这 些 撤 术 还 可 以 用 于 图 像 。 在 绝 大 多 数 现 代 计 算 机 视觉 研究 中 ， 主 题 模 型 都 是 非常 重要 的 。 事 
实 上 ， 与 前 面 儿 章 不 同 ， 本 章 非 常 接近 于 机 带 学 习 算法 人 研究 的 最 前 治 。 原 始 的 LDA 算 法 是 2003 
年 在 一 个 学 术 期 刊 上 发 表 出 来 的 。gensim 所 使 用 的 对 维基 百科 进行 处 理 的 方法 ， 是 在 2010 年 开 
发 出 来 的 。 而 HDP 算 法 始 于 2011 年 。 这 个 领域 的 研究 一 直 在 进行 ,你 可 以 发 现 它 有 很 多 变种 ， 以 及 
有 着 美妙 名 字 的 模型 ， 例 如 印度 自助 餐 过 程 (Indian buffet process， 注 意 不 要 跟 中 国 餐 馆 过 程 一 一 
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Chinese restaurant process 混 消 ， 它 们 是 不 同 的 模型 )， 或 者 弹 球 盘 分 配 ( Pachinko allocation ; 
弹 球 盘 是 一 球 日 本 游戏 ， 它 是 老虎 机 和 弹 球 的 杂 合 )。 当 前 ， 这 些 工 作 尚 处 于 研究 阶段 。 几 年 之 
后 ， 它 们 才 可 能 用 于 解决 实际 问题 。 


现在 ， 我 们 已 经 重 温 了 一 些 主流 机 各 学 习 模 型 ， 例 如 分 类 、 肾 类 和 主题 模型 。 在 下 一 半 中 ， 
我 们 将 会 回 到 分 类 问题 ， 探 索 一 些 高 级 算法 和 方法 。 














分 类 : 检测 筋 质 管 某 


我 们 既然 已 经 能 够 从 文本 中 抽取 有 用 特征 ， 那 就 可 以 迎接 在 真实 数据 上 构建 分 类 硕 的 挑战 
了 。 让 我 们 回 到 第 3 草 ， 在 那里 有 一 些 网 站 ， 其 中 用 户 可 以 提交 问题 并 得 到 解答 。 


这 些 问答 (0Q&A ) 网 站 一 直 都 面临 一 个 挑战 ， 即 要 证 发 表 的 帖子 的 内 容 保持 较 好 的 质量 
像 stackoverflow.com 这 样 的 网 站 ， 付 出 了 很 大 努力 ， 例 如 让 用 户 为 问题 和 答案 打分 并 给 予 一 些微 
章 和 奖励 值 。 这 样 用 户 会 花费 更 大 的 精力 来 雕琢 问题 或 所 写 可 能 的 答案 , 进而 囊 来 更 多 高 质量 的 
发 证 

有 一 种 比较 成 功 的 激励 方式 , 即 提问 者 将 从 众多 解答 中 选择 一 个 , 标识 为 被 采纳 的 答 宁 ( 提 
问 者 标识 这 些 答案 是 有 激励 作用 的 )， 而 被 标识 的 答案 的 作者 会 得 到 更 多 的 积分 。 

如 果 用 户 在 输入 答案 的 时 候 能 立即 看 到 他 所 给 出 的 解答 是 好 是 坏 , 会 不 会 非常 有 用 处 呢 ? 
这 意味 春 网 站 需要 持续 地 评估 未 完成 的 解答 ， 并 反 乌 它 是 否 有 劣质 答案 的 迹象 。 这 将 辟 励 用 户 
投入 更 多 的 精力 去 撰写 答案 (例如 提供 代码 示例 ， 插入 图 像 等 )。 所 以 ， 最 后 整个 系统 的 效果 
都 提升 了 。 


让 我 们 在 本 章 中 构建 这 样 一 种 机 制 。 


O 



































5.1 ”路线 图 概述 


我 们 将 使 用 非常 繁杂 的 真实 数据 来 构建 系统 。 本 章 并 不 适合 “ 胆 小 ” 的 读者 ， 因 为 我 们 不 会 
得 到 一 个 完美 的 解决 方案 ， 也 无 法 使 分 类 需 达 到 100% 的 正确 率 。 原 因 很 简单 : 即使 是 我 们 人 类 ， 
也 经 常会 对 一 个 答案 的 好 坏 产 生 分 下 ( 看 看 stackoverflow.com 网 站 上 的 一 些 评论 就 知道 了 )。 人 恰恰 
相反 ， 我 们 会 发 现 ， 有 些 问题 非常 难 ， 必 须 在 解决 它 的 过 程 中 不 断 凋 整 目标 。 在 这 个 过 程 中 ,我 
们 将 会 从 最 邻近 方法 开始 ,揭示 它 在 这 个 问题 上 的 效果 为 什么 不 好 ， 并 切换 到 逻 辑 回 归 ， 然后 得 
到 一 个 在 小 部 分 数据 上 有 较 好 预测 效果 的 解决 方案 。 最 后 , 我 们 将 花 一 点 时 间 来 介绍 如 何 选 择 最 
佳 模型 ， 并 把 它 应 用 到 目标 系统 上 。 

















5.2 学 习 如 何 区 分 出 优秀 的 答案 


在 分 类 的 时 候 , 我 们 希望 得 到 给 定 样 本 的 类 别 ,， 有 时 又 叫做 标签 。 要 达到 这 个 目的 , 我 们 需 
要 先 回 答 以 下 两 个 问题 。 

口 我 们 该 如 何 表示 数据 样本 ? 

口 我 们 的 分 类 融 应 该 采用 哪 种 模型 或 结构 ? 





5.2.1 调整 样本 


在 这 里 ,数据 样本 很 傈 单 ， 就 是 答案 中 的 文本 ， 而 标签 是 一 个 二 值 数字 , 代表 提问 者 是 否 接 
受 这 个 答案 。 然 而 ， 对 于 大 多 数 机 带 学 习 算 法 来 说 ， 原 始 文本 并 不 是 一 个 很 方便 的 表示 方式 。 这 
些 算法 需要 用 数字 表示 的 样本 。 我 们 的 任务 就 是 从 原始 文本 中 提取 有 用 的 特征 , 使 机 表 学 习 算 法 
可 以 用 它 来 学 习 正 硝 的 标签 。 





























我 们 一 旦 收集 到 足够 多 的 数据 对 文本 及 标签 )， 束 可 以 开始 训练 分 类 器 『。 对 于 分 类 带 所 
使 用 的 结构 ,我 们 有 很 多 种 选择 。 但 每 种 选择 者 各 有 利 蛇 。 这 里 仅 举 几 个 比较 重要 的 选择 ,如 他 
辑 回归 、 决 沫 树 、SVM 和 朴 系 贝 叶 斯 。 在 本 章 中 , 我 们 会 拿 基 于 模型 的 逻辑 回归 方法 和 前 一 章 中 
的 基于 示例 的 方法 做 对 比 。 








5.3 ”获取 数据 


斑 运 的 是 , 在 得 到 了 CC Wiki 的 许可 后 ，stackoverflow 的 幕后 团队 提供 了 stackoverflow 所 在 的 
StackExchange 域 中 的 大 多 数 数据 。 在 本 书 撰写 之 时 ， 最 新 的 数据 可 以 在 http://www.clearbits. 
net/torrents/2076-aug-2012 找 到 。 这 个 页 面 很 可 能 包含 一 个 指 问 更 新 后 的 转 存 数据 的 链接 。 


下 载 并 解压 之 后 ， 我 们 得 到 了 大 约 37 GB 的 XML 格 式 的 数据 。 大 致 如 下 表 所 示 : 











文件 大 小 (MB) 描 述 
badges .xml 309 用 户 的 徽章 

comments .xml 3225 问题 或 答案 的 评论 
posthistory.xml 18 370 编辑 历史 

posts.xml 12 272 问题 和 答案 一 一 这 是 我 们 需要 的 
users .Xml 319 用 户 的 一 般 性 信息 





votes .xml 2200 交际 信息 
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由 于 这 些 文件 差不多 都 是 独立 的 ， 我 们 可 以 把 除 posts.xml 以 外 的 其 他 文件 都 删 掉 ; 
posts.xml 包 含 了 所 有 问题 和 答案 ， 它 们 位 于 root 标 签 posts 下 的 row 标 签 中 。 参 考 如 下 代码 : 


<?xXxml] version="1.0" encoding="utf-8"?> 
<posts> 

<row Id="4572748" PostTypeId="2" ParentId="4568987" 
CreationDate="2011-01-01T00:01:03.387" Score="4" 
ViewCount="" Body="&lt;p&gt;IANAL, but &lt;a 
href=&quot;http://support.apple.com/kb/HT2931&quot; 
rel=&quot;nofollow&quot;&gt;this&lt;/a&gt; indicates to me 
that you cannot use the loops in your 
application:&lt;/p&gt;&H#HxA; S&H#xA; &lt;blockquote&gt;&#xA; 
&lt;p&gt;...however, individual audio loops may&#xA; not 
be commercially or otherwise&#xA; distributed on a 
standalone basis, nor&#xA; may they be repackaged in whole 
Or in&#xA; part as audio samples, sound effects&#xA; or 
music beds.&quot;&lt;/p&gt;&HxA; &H#HxA; &lt;p&gt;So don't 
Worry, you can make&#xA; commercial music with GarageBang, 
you&t#xA; just can't distribute the loops asg&t#xA; 
loops.&lt;/p&gt;&H#xA;&lt;/blockquote&gt;&#xA;" 
OwnerUserId="203568" LastActivityDate="2011-01- 
01TO00:01:03.387" CommentCount="1" /> 














名 字 类 型 拉 述 

Id Integer 这 是 唯 -标识 
PostType Integer 这 个 描述 了 帖子 的 类 型 。 我 们 对 下 面 这 些 类 型 感 兴趣 : 

。 门 题 

。 答案 

其 他 值 都 被 包 略 

ParentId Integer 这 是 答案 所 属 问 题 的 唯一 标识 〈 一 些 问题 可 能 缺失 ) 
CreationDate DateTime 这 是 提交 的 日 期 
Score Integer 这 是 帖子 的 分 数 
ViewCount Integer or empty 这 个 告诉 我 们 该 帖子 的 用 户 浏 览 数 
Body el 这 是 帖子 的 全 部 内 容 ， 编 码 在 HIML 文 本 中 
OwnerUserId Id 这 个 是 发 帖 者 的 唯一 标识 。 如 有 果 是 1， 那 这 是 一 个 wiki 问题 
Title String 这 是 问题 的 标题 (答案 和 没有 标题 ) 
AcceptedAnswerId Id 这 是 被 接受 答案 的 ID (一 些 答案 可 能 缺失 ) 
CommentCount Integer 这 个 告诉 我 们 帖子 的 评论 数 


5.3.1 将 数据 消减 到 可 处 理 的 程度 


为 了 加 快 实验 进程 ， 我 们 不 应 该 在 一 个 12 GB 的 文件 上 评估 分 类 算法 。 相 反 ， 我 们 应 该 想 想 
如 何 把 数据 缩小 ， 以 便 能 够 在 快速 验证 想法 的 同时 ， 仍 然 使 数据 具有 代表 性 。 ae 
建 日 期 (creationDate ) 为 2011 或 者 之 后 的 row 标 签 过 滤 掉 ,我 们 最 后 还 拥有 超过 600 万 的 帖子 
(2 323 184 个 问题 和 4 055 999 个 答案 ),。 目前 ,这些 训练 数据 应 该 已 经 足够 多 了 。 我 们 不 能 在 XML 


AA _ 立 - J > /]A 大和 - 志 
70 第 5 章 分 类 : 检测 劣质 答案 


格式 的 数据 上 进行 操作 ， 因 为 这 样 会 让 处 理 速度 变 得 很 慢 。 数 据 格式 越 信 单 越 好 。 这 就 是 我 们 要 
用 Python 的 cEBlementTree 来 解析 其 余 的 XML， 并 把 它 写 人 一 个 以 tab 符 分 隔 的 文件 的 原因 。 


5.3.2 ”对 属性 进行 预选 择 和 处 理 


我 们 还 应 该 仅 保 留 那些 我 们 认为 有 助 于 分 类 融 从 一 般 答 案 中 区 分 出 优质 答案 的 属性 。 当 然 ， 
我 们 需要 与 识别 有 天 的 属性 ， 来 赋 子 问题 正确 的 解 和 谷 。 阅 读 一 下 下 面 这 些 属性 。 


口 例如 PostType 属 性 只 能 用 于 区 分 问题 和 答案 。 然 后 通过 检查 ParentId 可 以 进一步 对 它 
们 进行 区 分 。 所 以 ， 为 了 区 分 出 问题 ， 我 们 要 把 这 个 属性 保留 下 来 ， 并 设 为 1。 

D creationDate 属 性 对 于 确定 提出 问题 和 发 表 解 答 之 间 的 时 间 间 隔 是 有 意义 的 ,所 以 我 们 
也 把 它 保留 下 来 。 

口 Score 属性 当然 也 很 重要 ， 它 是 社区 评价 的 风 回 标 。 

D ViewCount 属 性 ， 相 反 ， 很 可 能 对 我 们 的 任务 一 点 用 处 也 没有 。 即 使 它 能 帮助 分 类 各 区 
分 答案 的 好 坏 ， 我 们 却 无 法 在 答案 提交 时 获得 这 个 信息 。 所 以 我 们 把 它 忽 略 。 

口 Body 属 性 明显 包含 了 最 重要 的 信息 。 由 于 它 编 码 在 HTML 中 , 我 们 需要 把 它 解 码 成 纯 文 本 。 

口 ownerUserId 属 性 只 有 当 我 们 把 用 户 相 关 的 特征 考虑 进去 的 时 候 才 会 有 用 处 。 但 我 们 不 
会 考虑 。 尺 管 在 这 里 需要 把 它 扔 挥 ， 我 们 仍然 豆 励 你 使 用 它 (或 许 与 users .xml 有 关联 ) 
来 构建 一 个 更 好 的 分 类 器 。 

D Tit1le 属 性 在 这 里 也 可 以 忽略 ， 尽 管 它 可 以 提供 更 多 关于 问题 的 信息 。 

口 CommentCount 属 性 也 可 以 忽略 。 类 似 于 Viewcount， 它 在 帖子 发 表 了 一 段 时 间 之 后 才 
会 对 分 类 种 有 所 帮助 《更 多 的 评论 等 于 更 多 模 杰 两 可 的 帖子 )， 但 在 答案 刚 发 出 的 时 候 却 
无 牧 益 。 

口 AcceptedAnswerId 属 性 类 似 于 score 属 性 。 它 是 帖子 质量 的 指示 硕 。 由 于 每 个 答案 都 
涉及 这 个 属性 ,我 们 要 创建 一 个 新 属性 ，IsaAccepted， 而 不 是 保留 原来 的 属性 。 对 于 答 
案 来 说 这 个 新 属性 的 值 是 0 或 者 1， 而 对 于 问题 (ParentIdq=1 )， 它 将 被 忽略 。 


我 们 最 后 得 到 如 下 的 格式 : 


Id <TAB> ParemntIQq <TAB> IsAccepted <TAB> TimeToAnswer <TAB> Score 
<TAB> Text 


关于 具体 的 解析 细节 ， 请 参考 so xml to tsv.py 和 choose instance.py。 为 了 加 速 这 个 过 程 ， 我 
们 将 数据 切 分 到 两 个 文件 中 。 在 meta.json 里 ,我 们 存储 了 一 个 从 帖子 ia 映射 到 其 他 数据 的 字典 ( 除 
了 JSON 格 式 的 Text )， 便 于 我 们 用 正确 的 格式 谈 取 数据 。 例 如 ， 一 个 帖子 的 分 数 可 以 放 在 
meta[id] [Score] 里 。 在 datatsv 里 , 我 们 存储 了 Id 和 Text。 用 下 列 方法 很 容易 对 它们 进行 读 取 : 












































def fetch posts () : 


for line in open("data.tsv", "r"): 
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post_id, text = line.split("\t") 


yield int (post_ id), text.strip() 


5.3.3 ”定义 什么 是 优质 答案 


在 开始 训练 分 类 和 区 分 好 坏 答 案 之 前 ,我 们 需要 构造 训练 样本 。 到 目前 为 止 , 我 们 只 有 一 堆 
数据 。 我 们 仍 需要 确定 样本 的 标签 。 


当然 , 我 们 可 以 人 简单 地 用 IsAccepted 属 性 作为 标签 。 毕竟 , 它 标 识 出 了 解答 了 问题 的 答案 。 
然而 ,这 只 是 提问 者 的 意见 。 随 独 时 间 的 推进 ， 有 更 多 的 答案 提交 上 来 ， 其 中 一 些 往往 会 比 已 接 
受 的 答案 更 好 。 然 和 而， 提问 者 却 很 少 再 回顾 这 个 问题 ， 并 改变 他 /她 的 主意 。 所 以 最 后 我 们 会 得 
到 很 多 包含 被 接受 答案 的 问题 ， 而 这 些 答 案 的 分 数 并 不 是 最 高 的 。 

另 一 个 极端 是 , 我 们 可 以 把 每 个 问题 中 最 好 和 最 差 的 答案 当做 正 负 样 本 。 但是, 对 于 只 有 好 
答案 的 问题 我 们 该 怎么 办 呢 ， 比 如 一 个 给 2 分 ， 男 一 个 给 4 分 ?我 们 真 的 应 该 把 2 分 的 答案 当做 负 
样本 吗 ? 


我 们 需要 在 两 个 极 痪 之 间 寻 求 一 个 解决 方案 。 如 于 把 所 有 大 于 0 分 的 答案 当做 正 例 ， 把 所 有 
小 于 等 于 0 分 的 答案 当做 负 例 ， 我 们 就 会 得 到 一 个 比较 合理 的 标签 ， 如 下 所 未 : 





























>>> all answers = [gq for qdq,v in meta.iteritems() if v['Parent1Id']!=-1] 
>>> Y = np.asarray ([metalaid]j['Score']>0 for aid in all answers]) 


5.4 创建 第 一 个 分 类 器 


让 我 们 从 前 一 革 中 简洁 而 美观 的 最 邻近 方法 开始 。 尽管 它 看 上 去 不 像 其 他 方法 那样 高 端 , 却 
其 有 威力 。 因 为 它 不 是 基于 模型 的 方法 ,所 以 几乎 可 以 学 习 任 何 数据 。 然 而 ， 这 种 优 闫 性 也 市 来 
了 一 个 明显 的 缺点 ， 我 们 一 会 儿 束 会 发 现 。 








5.4.1 从 k 邻 近 (kNN) 算法 开始 


这 一 次 ， 我 们 并 不 想 上 自己 来 实现 它 ， 而 是 使 用 sklearn 工 具 来 实现 。 这 个 分 类 需 在 
sklearn.hbors 里 。 让 我 们 从 一 个 价 单 的 2 最 邻近 分 类 需 〈2-nearest neighbor classifier ) 开始 : 








>>> from sklearn import neighbors 

>>> knn = neighbors.KNeighborsClassifier(n neighbors=2) 

>>> print (knn) 

KNeighborsClassifier(algorithm=auto, leaf size=30, n neighbors=2, p=2, 
warn on equidistant=True, weights=uniform) 
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它 提 供 了 一 个 和 sklearn 中 其 他 分 类 融 一 样 的 接口 。 我 们 用 fit() 进行 训练 ， 然 后 用 
predict () 预测 新 数据 的 类 别 。 

1 

>>> knn.predict(1.5) 

array (101]) 

>>> knn.predict (37) 

array (lL].) 

>>> knn.predict (3) 

NeighborsWarning: kneighbors: neighbor k+l1 and neighbor k have the 

same distance: results will be dependent on data order. 

neigh dist, neigh ind = self.kneighbors (X) 
array (101]) 


我 们 可 以 用 predict_proba () 得 到 类 别 的 概 京 。 在 这 个 例子 中 ， 我们 有 两 个 类 0 和 1。 它 会 
返回 一 个 含有 两 个 元 素 的 数组 ， 如 下 列 代 人 码 所 示 : 

>>> knn.predict proba(1.5) 

array([[ 1., 0.]1]) 

>>> knn.predict proba (37) 

array([[ 0., 1.]11]1) 


>>> knn.predict proba(3.5) 
array([[ 0.5, 0.5]]) 


5.4.2 ”特征 工程 
那么 ， 我 们 可 以 给 分 类 带 提 供 什么 样 的 特征 呢 ? 什么 样 的 特征 最 具有 区 分 性 呢 ? 


TimeToAnswer 属 性 已 经 出 现在 我 们 的 meta 字 上 典 里 了 , 但 它 自 己 可 能 并 不 能 提供 太 多 价值 。 
这 里 只 有 Text， 但 它 是 原始 形式 的 ， 我 们 无 法 把 它 传 递 给 分 类 侣 ， 因 为 分 类 占 知 要 的 特征 必须 
征 数 值 形式 的 。 所 以 我 们 必须 先进 行 特征 抽取 这 种 琐 雁 的 活 儿 。 


我 们 能 做 的 是 查看 答案 中 的 HTMIL 链 接 数 ,并 用 它 代表 管 案 的 质量 。 假设 答案 中 的 超 链 越 多 
意味 春 答案 越 好 ， 越 有 可 能 被 采纳 为 最 佳 答案 。 当 然 我 们 希望 只 考虑 正 笛 文本 中 的 链接 ， 而 不 是 
示例 代码 中 这 样 的 : 


import re 
































code match = re.compile('<pre>(.*?)</pre>', 
re.MULTILINE | re .DOTALL) 
link match = re.compile('<a href="http://.*?".*?>(.*?)</a>', 


re.MULTILINE | re .DOTALL) 
def extract features from body(s): 
link count in code = 0 


# 统计 代码 中 的 链接 ， 后 续 会 提取 它们 
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for match str in code match.findall(s): 


link count_ in code += 
len(link match.findall (match str)) 


return len(link match.findall(s)) - link count in code 


Ai 对 于 一 个 生产 式 系统 来 说 ,我 们 不 应 该 用 正则 表达 式 来 解析 HTML 内 容 。 相 
反 ， 我 们 应 该 依赖 优秀 的 工具 库 ， 如 BeautifulSoup。 我 们 可 以 放心 地 用 它 来 处 理 
那些 经 常 在 HTML 中 出 现 的 各 种 奇怪 情况 ， 而 且 效 果 非 凡 。 


在 这 些 准 备 工 作 就 绪 之 后 ， 我 们 就 可 以 为 每 个 答案 都 生成 一 个 特征 。 但 在 训练 分 ) 关 请 之 他 ， 
先 看 一 下 我 们 要 进行 训练 的 数据 。 我们 可 以 对 这 个 新 特征 的 频率 分 布 有 一 个 初始 印象 。 这 个 可 以 
通过 夯 出 每 个 取 值 在 数据 中 出 现 频 率 的 百分比 来 得 到 。 如 下 图 所 示 : 





LinkCount 


一 
.O 
OO } 
CC 
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由 于 多 数 帖子 根本 没有 任何 链接 , 所 以 我 们 知道 , 这 个 特征 本 身 并 不 能 生成 一 个 很 好 的 分 类 
售 。 尺 管 如 此 ， 让 我 们 先 尝 斌 一下， 以 便 对 目前 所 处 的 位 置 有 一 个 初步 的 估计 。 


5.4.3 训练 分 类 器 
我 们 需要 把 特征 数组 以 及 之 前 定义 的 Y 标 签 传 进 kNN 学 习 器 ， 来 得 到 一 个 分 类 器 。 


XxX = np.asarray ([extract features_ from bodqy (text) for post id, 
text in fetch posts() if post id in all answers]) 

knn = neighbors.KNeighborsClassifier() 

knn.fit(xX, Y) 


我 们 采用 标准 参数 对 数据 拟 合 出 了 一 个 5NN ( 意思 是 厂 5 的 最 邻近 模型 )。 为 什么 是 SNN 呢 ? 
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实际 上 ， 以 我 们 现在 对 数据 的 了 解 ， 并 不 知道 正确 的 是 多 少 。 我 们 一 旦 对 此 有 更 多 的 认识 ， 那 
么 将 会 有 更 好 的 办 法 来 设置 k 值 。 


5.4.4 评估 分 类 器 的 性 能 


我 们 必须 清楚 我 们 要 评估 的 是 什么 ,一 个 原始 但 最 容易 的 方法 就 是 简单 地 计算 测试 集 上 的 平 
均 预 测 质量 。 然 后 将 会 得 到 一 个 0 到 1 之 间 的 值 。0 表 示 错 误 预 测 ，1 表 示 完 美 预测 。 正 确 率 可 以 通 
过 knn .scotre ( ) 得 到 。 











但 是 正如 前 一 章 所 学 到 的 ， 我 们 不 会 只 做 一 次 ， 而 是 要 使 用 sklearn.cross_validation 
里 现成 的 KEFola 类 进行 交叉 验证 。 最 后 ,我 们 把 每 一 折 测 试 集 上 的 分 数 平均 一 下 ， 用 标准 差 来 评 
估 它 的 偏离 程度 。 参 考 下 列 代 码 : 

from sklearn.cross validation import KFold 

scores = [|] 


CV = KFold (n=len (XxX), k=10, indices=True) 
for train, test in cv: 








xX train, y_train = X[train], Yltrainl] 

XxX test, y test = XI[test], Yltestl 

clf = neighbors.KNeighborsClassifier() 
clf.fit(XxX, Y) 

scores.append (clf.score(X test, y_test)) 


print ("Mean (scores)=%.5f\tStddev (scores)=%.5f"% (np.mean(scores, 
np.std(scores)),) 


输出 如 下 : 
Mean (scores)=0.49100 Stddev (scores)=0.02888 
这 还 远 不 可 用 。 由 于 只 有 49% 的 正确 率 ， 还 不 如 抛 人 硬币 的 效 采 。 很 明显 ， 帖 子 中 的 链接 数 并 


不 是 一 个 能 很 好 地 反映 帖子 质量 的 指标 。 我们 说 ， 这 个 特征 并 不 具有 很 大 的 区 分 性 一 一 至 少 ， 对 
于 厂 5 的 kKNN 不 具有 。 





5.4.5 ”设计 更 多 的 特征 


除了 用 超 链 接 数 代表 帖子 质量 之 外 , 使 用 代码 行 数 也 可 能 是 一 个 比较 好 的 选择 。 至 少 它 预示 
痢 帖 子 的 作者 对 解答 这 个 问题 很 感 兴趣 。 我 们 可 以 找到 骨 在 <pre>.….</pre> 标 签 中 的 代码 。 一旦 
把 它们 提取 出 来 ， 我 们 束 应 该 在 统计 帖子 词语 数 日 的 时 候 忽 略 挥 所 有 有 代码 的 行 : 


def extract features from body(s): 
num code lines = 0 





link count in code = 0 
Code free s = S 
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# 删除 源 代 码 ， 并 统计 有 多 少 行 
for match str in code match.findall(s): 
num code_ lines += match str.count('\n') 
Code _ free s = code match.sub("", code free s) 
# 有 时 源 代 码 中 包含 链接 ， 
# 我 们 并 不 需要 统计 它们 


link count in code += len(link match.findall (match str)) 


links = link match.findalll(s) 


link count = len(links) 

link count -= link count_ in code 

html free s = re.sub(" +", " ", tag match.sub('', 
code free s)) .replace("™\n", "") 

link free s = html_ free s 


# 在 统计 词语 之 前 从 文本 中 删除 链接 
for anchor in anchors : 
if anchor.lower() .startswith("http://"): 
link free s = link free s.replace(anchor,'') 


num text tokens = html free s.count(" ") 


return num text tokens, num code lines, link count 


看 看 下 面 这 儿 个 图 ， 我 们 注意 到 一 个 帖子 中 的 词语 数目 有 很 大 的 变化 : 





NumCodeLines z ee NumTextlokens 
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在 更 大 的 特征 空间 中 进行 训练 ， 可 以 使 正确 率 提高 不 少 。 

Mean (scores)=0.58300 Stddev (scores)=0.02216 

但 是 这 仍然 意味 痢 在 我 们 的 分 类 结果 中 ，10 个 答案 中 大 约 有 4 个 是 错误 的 。 不 过 至 少 我 们 在 
瑚 着 正确 的 方 品 前 进 。 更 多 的 特征 会 市 来 更 高 的 正确 率 。 这 指引 我 们 去 增加 更 多 的 特征 。 因 此 ， 
让 我 们 拓展 一 下 特征 空间 ，3 引 入 更 多 的 特征 。 
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口 AvgSentLen 这 个 特征 衡量 了 句子 中 的 平均 词语 个 数 。 也 许 存在 这 么 一 种 模式 ， 非常 好 
的 帖子 并 不 会 用 很 长 的 句子 让 读者 的 大 脑 超 负 全 运 转 。 

口 AvgWordLen 这 个 特征 和 AvgSentLen 类 似 ; 它 衡 量 了 帖子 中 词语 的 平均 字符 个 数 。 

口 NumAllCaps 这 个 特征 衡量 了 大 写 形 式 的 词语 个 数 。 但 这 并 不 是 好 的 字体 样式 。 

口 NumExclams 这 个 特征 衡量 了 感叹 号 的 个 数 。 


下 列 图 表 中 显示 了 名 了 于 和 词语 的 平均 长 度 ， 以 及 大 写 词 全 和 感叹号 个 数 的 数值 分 布 : 











AvgSent en AvgWordLen 


Fraction 





NumAllCaps NumExclams 


Fraction 





加 上 这 4 个 特征 ， 现 在 有 7 个 特征 来 表示 每 个 帖子 。 来 看 看 我 们 的 进 
Mean (scores)=0.57650 Stddev (scores)=0.03557 
这 很 有 趣 。 我 们 增加 了 4 个 特征 之 后 却 得 到 了 更 糟糕 的 分 类 正确 率 。 怎 么 会 这 样 ? 
要 理解 这 个 ， 我 们 需要 明日 KNN 是 如 何 工 作 的 。 我 们 的 SNN 分 类 融通 过 计算 前 面 描 述 的 这 7 


个 特征 ( 包括 LinkCount、 NumTextTokens、 NumCodeLines、 AvgSentLen、 AvgWordLen.、 


5.5 决定 怎样 提升 效果 


NumAllCaps 和 NumExclams ) 来 确定 每 个 新 帖子 的 类 别 ， 然 后 找到 5 个 距离 最 近 的 帖子 。 新 帖子 
的 类 别 就 是 在 这 些 距 离 最 近 的 帖子 中 出 现 次 数 最 多 的 类 别 。 由 于 我 们 没有 详细 说 明 , 在 初始 化 时 ， 
分 类 需 的 闵 科 夫 斯 基 ( Minkowski ) 距离 参数 的 默认 值 是 p=2。 这 意味 着 所 有 这 7 个 特征 都 被 同等 
对 等。 然而 KNN 并 不 会 知道 , 例如 NumTextTokens 这 个 特征 , 虽然 有 益处 , 但 远 远 不 如 NumLinks 
重要 。 让 我 们 考虑 如 下 两 个 帖子 A 和 B。 它 们 只 在 下 面 这 些 特征 上 有 区 别 。 我 们 看 看 它们 是 如 何 
跟 一 个 新 帖子 做 比较 的 : 














帖 子 NumLinks NumTextTokens 
A 2 20 
B 0 25 
新 帖子 1 23 
尽管 我 们 觉得 链接 比 纯粹 的 文本 提供 了 更 多 的 价值 ， 但 和 帖子 A 相 比 ， 帖 子 B 与 新 帖子 更 
相似 。 


很 明显 ，KNN 难 以 正确 利用 现 有 数据 。 


5.5 决定 怎样 提升 效果 
要 提升 效果 ， 我 们 基本 上 有 如 下 选择 。 


口 增加 更 多 的 数据 ”也许 我 们 没有 为 学 习 算 法 提供 足够 的 数据 ， 因 此 增加 更 多 的 训练 数据 
即 可 O 
D 考虑 模型 复杂 度 ” 也 许 模型 还 不 够 复杂 ， 或 者 已 经 太 复 末 了 。 在 这 种 情况 下 ， 我 们 可 以 
降低 k 值 ， 使 得 较 少 的 近邻 被 考虑 进去 ， 从 而 更 好 地 预测 不 平滑 的 数据 。 我 们 也 可 以 提高 
k 值 ， 来 得 到 相反 的 效 末 。 
口 修改 特征 空间 也 许 我 们 的 特征 集合 并 不 好 。 例 如 ， 我 们 可 以 改变 当前 特征 的 范围 ， 或 
者 设计 新 的 特征 。 又 或 者 ， 如 果 有 些 特征 和 另外 一 些 是 别名 关系 ， 我 们 还 可 以 删除 一 些 
特征 。 
D 改变 模型 ”也许 KNN 并 不 适合 我 们 的 问题 。 无 论 我 们 让 模型 变 得 有 多 复 休 ， 无 论 特征 空 
间 会 变 得 多 复杂 ， 它 永远 也 无 法 得 到 良好 的 预测 效果 。 
在 实际 应 用 中 ， 为 了 提升 当前 的 效果 ， 人 们 通 第 会 从 上 述 选 项 中 随机 选择 一 个 ,然后 无 序 地 
进行 尝试 ， 硕 望 可 以 偶然 找到 一 个 完美 的 配置 。 我 们 在 这 里 也 可 以 这 样 做 ,但 在 做 出 正确 的 抉择 
之 前 这 样 一 定 会 花费 更 长 的 时 间 。 我 们 应 该 采取 更 明湖 的 路 线 , 这 就 需要 介绍 一 下 依 差 -方差 折 中 。 





























5.5.1 偶 委 -方才 及 其 折 中 
在 第 1 章 中 , 我 们 尝试 了 通过 控制 维度 参数 a 来 拟 合 不 同 复杂 度 的 多 项 式 , 并 且 发 现 二 维 多 项 
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式 (一 条 有 直线 ) 并 不 能 很 好 地 拟 合 示 例 数据 。 因 为 数据 本 质 上 并 不 是 一 条 线 。 不 管 我 们 如 何 努 力 
地 去 拟 合 ， 二 维 模 型 会 把 任何 东西 都 当做 一 条 直线 。 因 此， 可 以 认为 这 个 模型 偏离 数据 太 远 了 ，; 
也 就 是 欠 拟 合 。 


然后 ， 我 们 试验 了 一 下 不 同 的 维度 ， 然 后 发 现 100 维 的 多 项 式 其 实 可 以 非常 好 地 拟 合 训练 数 
据 。( 当时 ， 我们 还 不 知道 对 训练 集 和 测试 集 进 行 分 割 。) 然而 ,我 们 很 快 又 发 现 ， 它 拟 合 得 过 于 
好 了 ， 进 行 了 过 度 拟 合 。 那 么 如 果 用 不 同 的 样本 数据 ， 我 们 将 得 到 完全 不 同 的 100 维 多 项 式 。 因 
此 ， 可 以 认为 这 个 模型 对 给 定数 据 有 一 个 过 高 的 方 卷 ， 也 就 是 过 拟 合 。 

大 多 数 机 带 学 习 问 题 都 处 在 这 两 个 极 闯 之 间 。 在 理想 情况 下 ,我 们 既 想 要 低 俩 差 ， 又 想 要 低 
方才 。 但 是 ,我 们 却 生 活 在 一 个 糟糕 的 世界 里 ， 必 须 在 这 两 者 之 间 做 出 权衡 。 如 果 我 们 提升 其 中 
二 于 么 园 避 能 让 为 外 一 个 全 让 




















5.5.2 ”解决 局 偶 郑 


假设 我 们 正在 座 受 高 俩 差 之 吉 。 在 这 种 情况 下 ， 加 入 更 多 的 训练 数据 明显 不 会 有 什么 帮助 。 
同样 ， 删 减 特 征 肯 定 也 没有 帮助 ， 因 为 我 们 的 模型 可 能 已 经 过 于 简单 化 了 。 


这 这 种 情况 下 , 唯一 可 行 的 方式 就 是 增加 更 多 的 特征 , 让 模型 更 为 复杂 ,或 者 尝试 别 的 模型 。 








5.5.3 ”解决 高 方差 

相反 ， 如 果 我 们 遇 到 高 方差 的 问题 , 这 意味 着 我 们 的 模型 对 于 数据 来 说 太 过 复杂 。 在 这 种 情 
况 下 ， 我 们 只 能 尝试 获得 更 多 数据 ， 或 者 降低 模型 复杂 度 。 这 意味 着 要 增 大 k， 使 更 多 的 近邻 被 
考虑 进来 ， 或 者 删 减 一 些 特征 。 





5.5.4 高 偶 郑 芭 低 侦 卷 
要 发 现 问题 到 底 是 什么 ,我 们 可 以 把 在 不 同 规模 数据 上 得 到 的 训练 和 测试 误差 画 出 来 。 


高 偏差 通 第 可 以 这 样 揭 示 出 来 : 测试 误差 在 开始 时 有 一 些 下 降 , 但 之 后 会 维持 在 一 个 很 高 的 
数值 上 ， 同时， 随 大 数据 集 规模 的 增 大 ,训练 误差 会 与 测试 误差 较为 接近 。 而 局 方差 可 以 通过 两 
条 曲线 之 间 的 巨大 差距 识别 出 来 。 


我 们 针对 SNN 画 出 不 同 数据 规模 下 的 误差 之 后 发 现 , 在 训练 和 测试 误差 之 则 有 一 个 很 大 的 差 
跑 。 这 上 暗示 了 这 里 存在 高 方差 的 问题 。 参 考 下 图 : 
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Bias-Variance for 5NN- 
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Data set size 


从 上 面 这 张 图 中 ， 我 们 立即 就 可 以 看 出 ， 由 于 对 应 于 测试 误差 的 虚线 一 下 在 0.4 之 上 ， 加 入 
更 多 训练 数据 不 会 有 什么 帮助 。 我 们 唯一 的 选择 就 是 通过 增 大 三 者 削减 特征 空间 ， 来 降低 模型 


复杂 性 。 


但 是 ， 举 试 一 削减 特征 空间 ， 在 这 里 也 没有 起 到 任何 作用 。 我 们 可 以 通过 男 出 只 包含 
LinkCount 和 NumTextTokens 的 简化 特征 空间 ， 很 容易 确认 这 一 点 。 参考 下 图 5 
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对 其 他 更 小 规模 的 特征 集合 ,我 们 也 可 以 得 到 类 似 的 图 。 无 论 我 们 选择 哪个 特征 子 集 , 这 个 
图 看 起 来 虱 较 为 相似 。 


不 过 ， 通 过 增 大 /来 降低 模型 复杂 度 显 现 出 了 一 些 正面 的 有 影响。 在 下 表 中 可 以 说 明 : 





k 均值 (分 数 ) 标准 方差 (分 数 ) 
90 0.628 0 0.027 77 
40 0.626 5 0.027 48 
5 0.576 5 0.035 57 


但 这 并 不 够 , 它 是 以 较 低 的 实时 分 类 性 能 作为 代价 的 。 例 如 , 采用 大 90,， 我 们 会 有 一 个 非 稼 
低 的 测试 疙 差 。 但 这 也 意味 看 ， 要 对 一 个 新 帖子 分 类 ， 我 们 需要 寻找 90 个 最 邻近 的 其 他 帖子 , 来 
决定 新 帖子 的 好 坏 : 


Errors for different values of k 


train error 
一 一 test error 

















很 明显 , 在 这 个 情境 中 使 用 最 邻近 算法 的 时 候 ,， 我 们 就 面临 着 这 样 一 个 问题 。 此 外 , 它 还 有 
为 一 个 缺点 。 随 着 时 间 的 增加 ,进入 系统 的 帖子 会 越 来 越 多 。 由 于 最 邻近 方法 是 一 种 基于 示例 的 
方法 ,我 们 必须 在 系统 中 存储 所 有 的 帖子 。 而 我 们 得 到 的 帖子 越 多 ,预测 性 能 就 会 越 慢 。 这 跟 基 
于 模型 的 方法 是 不 同 的 ， 在 那里 我 们 会 从 数据 中 得 到 一 个 模型 。 














所 以 在 这 里 , 我 们 现在 有 充足 的 理由 抛弃 最 邻近 方法 , 我 们 需要 在 分 类 算法 世界 中 寻找 更 好 
的 方法 。 当 然 , 我 们 永远 也 无 法 知道 是 否 会 存在 一 个 我 们 没 想到 过 的 完美 特征 。 但 是 现在 ,让 我 
们 移 步 到 为 一 个 分 类 方法 吧 ， 这 个 方法 在 基于 文本 的 分 类 情景 中 做 得 非常 出 色 。 
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5.6 采用 逻辑 回归 


与 它 的 名 学 相反, 逻辑 回归 是 一 种 分 类 方法 。 当 它 处 理 基 于 文本 的 分 类 任务 时 ， 功 能 非常 强 
大 。 在 处 理 任务 时 它 首 和 完 会 用 一 个 逻辑 呐 数 来 进行 回归 ， 这 也 是 这 个 名 子 的 由 来 。 





5.6.1 一 操 数 学 和 一 个 小 例子 


为 了 对 人 逻辑 回归 的 工作 方式 有 一 个 初步 的 理解 ， 让 我 们 先 看 看 下 面 这 个 例子 。 我 们 在 x 轴 上 
画 出 了 一 组 人 工 构 造 的 特征 值 ， 以 及 它们 对 应 的 类 别 ( 0 或 1 )。 正 如 我 们 所 看 到 的 ， 数 据 中 有 很 
多 噪声 ,使 得 在 1 到 6 的 特征 值 区 间 上 ， 类别 有 很 多 重 阁 。 因 此 ,不 直接 对 离散 类 别 建 模 ， 而 是 得 
到 特征 值 属于 类 别 1 的 概率 P(X)， 会 更 好 一 些 。 一 旦 有 了 这 样 一 个 模型 ， 我 们 就 可 以 进行 预测 ， 
当 P(X)>0.5 的 时 候 样 本 属于 类 别 1， 在 其 他 情况 下 属于 类 别 0。 








feature value 











从 数学 上 来 说 , 对 一 个 有 有 限 区 间 的 事物 建 模 总 是 有 些 困难 , 就 像 本 例 里 面 我 们 的 离散 标签 
0 和 1。 然而 ,我们 可 以 对 概率 进行 一 点 调整 ,使 得 它们 总 是 在 0 到 1 之 间 。 为 此 ,我 们 需要 使 用 让 
步 比 (odds ratio )， 以 及 它 的 对 数 。 


我 们 假设 一 下 ， 一 个 特征 有 0.9 的 概率 属于 类 别 1， 也 就 是 ，PO=1)=0.9， 那 么 让 步 比 就 是 
PO=1D)VCPO=0)=0.9/0.1=9。 也 就 是 说 ， 这 个 特征 映射 到 类 别 1 的 机 会 是 9 : 1。 如 果 P(y=0.5)， 那么 
这 个 样本 属于 类 别 1 的 机 会 将 是 1 : 1。 让步 比 以 0 为 下 界 , 但 没有 上 限 ， 可 以 达到 无 限 大 (下 图 中 
的 左 图 )。 如 果 对 它 取 对 数 ， 我 们 就 可 以 把 所 有 0 到 1 之 间 的 概率 映射 到 负 无 穷 到 正 无 穷 的 整个 区 
间 上 (下 图 中 的 右 图 )。 这 种 方式 最 好 的 一 点 就 是 ， 我 们 仍然 保持 着 这 样 一 个 关系 : 更 高 的 概率 
对 应 于 更 高 的 让 步 比 对 数 一 一 这 不 再 限于 0 或 1 了 。 
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这 意味 春 我 们 现在 可 以 把 特征 的 线性 组 合 〈 是 的 , 我 们 现在 只 有 一 个 特征 和 一 个 肖 量 , 但 马 
上 就 会 有 更 多 ) 拟 合 成 log(odds)。 让 我 们 考虑 一 下 第 1 革 中 的 线性 等 式 ， 如 下 所 示 : 


yi = Co C17; 


它 可 以 用 如 下 等 式 蔡 换 ( 用 p 来 叔 换 y ): 











log ( 人 = Co 十 c172; 


我 们 可 以 从 等 式 中 求解 pi?， 如 下 式 所 示 : 


i 1 
pi ]+e— (cotce1ri) 


我 们 可 以 找到 适当 的 系数 ,使 得 上 述 式 子 在 所 有 数据 对 (xi,pi) 中 能 给 出 最 低 的 误差 。 这 个 可 
以 用 Scikit-learn 实 现 。 

将 数据 拟 合 到 类 别 标签 之 后 ， 这 个 公式 对 每 一 个 新 数据 点 x 都 可 以 给 出 x 属于 类 别 1 的 概率 。 
参考 如 下 代码 : 


>>> from sklearn.linear model import LogisticRegression 





>>> clf = LogisticRegression() 

>>> print (clf) 

LogisticRegression(C=1.0, class weight=None, dual=False, fit_ 
intercept=True, intercept _ scaling=1, penalty=12, tol=0.0001) 
>>> clf.fit(xX, y) 


>>> print (np.exp (clf.intercept ), np.exp(clf.coef .ravel())) 
[ 0.09437188] [ 1.80094112] 

>>> def lr model (clf, X): 

return 1 / (1 + np.exp(- (clf.intercept + clf.coef x*xX) ) ) 


>>> print ("P(x=-1)=%.2f\tP(x=7)=%.2f"% (lr model (clf, -1), lr_ 
model (clf, 7))) 
P(x=-1)=0.05 P(x=7)=0.85 
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你 可 能 已 经 注意 到 ，Scikit-learn 可 以 通过 特殊 字段 intercept_ 把 第 一 个 系数 暴露 出 来 。 


如 有 果 把 拟 合 的 模型 画 出 来 ， 我 们 就 可 以 看 到 它 对 于 给 定数 据 是 非常 有 意义 的 : 


外 dt 0 0 4 @—® 
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5.6.2 ”在 帖子 分 类 问题 上 应 用 逻辑 回归 


诚然 ， 前 一 节 的 例子 显示 出 了 逻辑 回归 的 美妙 之 处 。 那 么 用 它 来 处 理 极 其 哮 杂 的 数据 ,， 歼 果 
又 如 何 呢 ? 

将 最 邻近 分 类 需 (大 90 ) 作为 一 个 基线 , 我们 可 以 看 到 ， 它 的 效果 稍微 好 一 点 , 但 并 没有 使 
情况 改变 很 多 : 








万 法 均值 (分 数 ) 标准 方差 
LogReg C=0.1 0.631 0 0.027 91 
LogReg C=100.00 0.6300 0.031 70 
LogReg C=10.00 0.6300 0.031 70 
LogReg C=0.01 0.629 5 0.027 52 
LogReg C=1.00 0.629 0 0.032 70 
90NN 0.628 0 0.027 77 





我 们 已 经 看 到 采用 不 同 正则 化 参数 c 所 得 到 的 正确 率 。 通 过 它 ， 我 们 可 以 控制 模型 的 复杂 
总。 这 个 类 似 于 最 邻近 方法 的 参数 k。 较 小 的 c 值 会 市 来 较 大 的 惩罚 ， 这 是 说 ， 它 会 使 模型 更 为 
ZL 


局 、 O 〇 


前 油 





让 我 们 快速 浏览 一 下 最 佳 候选 方 条 (c=0.1 ) 的 偏差 -方差 图 。 图 中 显示 出 ,我 们 的 模型 具有 
高 仿 差 一 一 测试 和 训练 误差 很 接近 , 但 都 处 于 难以 接受 的 较 高 数值 上 。 这 意味 着 逻辑 回归 在 目前 
的 特征 空间 中 是 欠 拟 合 的 ， 无 法 学 到 一 个 能 够 正确 拟 合 数据 的 模型 。 


Bias-Variance for LogReg C=0.10- 


- train error 
— test error 





Data set size 


那 现在 怎么 办 呢 ?” 我 们 改变 了 模型 , 并 且 在 目前 所 知 的 范围 内 把 它 尽 可 能 调 到 了 最 好 。 但 是 
我 们 仍然 没有 得 到 令 人 满意 的 分 类 从。 

似乎 ,要么 是 对 于 我 们 的 任务 来 说 ,数据 过 于 哮 杂 了 , 要么 是 对 于 区 分 不 同类 别 来 说 , 我们 
的 特征 集合 还 不 是 很 适合 。 








5.7 ”观察 正确 率 的 背后 :准确 率 和 召回 率 


让 我 们 回 过 头 来 再 想 想 我 们 正在 演 试 实现 什么 。 到 现在 为 止 我 们 是 用 正确 座 来 衡量 效 来 的 ， 
但 事实 上 , 我 们 并 不 需要 一 个 分 类 融 来 完美 地 预测 出 好 答案 和 坏 答案 。 只 震 要 把 分 类 天 调 到 对 某 
一 个 类 别 预测 的 效 灯 特别 好 ,我们 就 可 以 把 它 反 馈 给 用 户 。 例如， 如 来 我 们 的 分 类 右 总 能 对 劣质 
答案 做 出 正确 预测 那 在 检测 到 一 个 劣质 答案 之 前 就 无 需 反 馈 。 反 之 ,如 有 打分 类 从 总 能 正确 预测 
优质 答案 , 那么 我 们 就 可 以 在 开始 阶段 为 用 户 提 供 有 帮助 的 评论 , 然后 在 分 类 融 说 它 是 优质 答案 
的 时 候 把 这 些 评论 删除 。 


要 弄 清 现在 所 处 的 位 置 , 我们 需要 理解 如 何 评 们 准确 率 和 召回 座 。 要 理解 这 些 , 需要 深入 看 
一 下 4 种 不 同 的 分 类 结果 ， 如 下 表 所 示 : 


























被 分 类 成 
负 例 
本 真正 例 (IP) 假 负 例 (EN) 
事实 上 是 
假 正 例 (FP) 真 负 例 (TN) 
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例如 , 如 打分 类 表 把 一 个 样本 预测 为 正 例 , 而 这 个 样本 确实 是 正 例 , 那么 这 就 是 一 个 真正 例 。 
为 一 方面 ， 如 来 分 类 带 把 样本 分 错 了 ， 比 如 将 样本 识别 为 负 例 , 但 实际 上 是 正 例 ， 那 这 个 样本 就 
是 假 负 例 。 


我 们 需要 的 是 在 预测 帖子 好 坏 的 时 候 有 一 个 高 成 功率 , 但 并 不 一 定 两 者 部 要 。 这 是 说 , 我 们 
想 要 的 是 尽 可 能 多 的 真正 例 。 也 台 是 准确 率 : 











准确 二 TBTEE 


相反 ， 如 有 我 们 的 目标 是 检测 出 尽 可 能 多 的 好 / 坏 答 案 ， 我 们 就 会 对 召回 率 更 感 兴 








x TP 
召回 率 二 TBTEN 


下 图 显示 了 所 有 的 好 答案 ， 以 及 被 分 类 成 好 答案 的 答案 。 








被 分 类 成 好 答案 ， 而 且 确 实 是 好 
答案 的 答案 (TP) 


所 有 好 答案 (TP+FN) 被 分 类 成 好 答案 的 答 
案 (TP+FP) 








在 前 面 的 图 表 中 ， 准 确 率 是 与 右 圈 相 交 的 部 分 ， 而 召回 紊 是 与 左 圈 相 交 的 部 分 。 


那么 ， 我 们 应 该 如 何 优化 准确 率 呢 ? 到 现在 为 止 ， 我 们 一 直 是 把 0.5 当 做 判别 答案 好 坏 的 效 
值 。 我 们 现在 可 以 做 的 是 ， 在 0 到 1 这 个 区 间 内 变换 国 值 ， 同 时 统计 TP、FP 和 FN 样 本 的 数量 。 有 
了 这 些 统计 值 ， 我 们 就 可 以 画 出 在 不 同 召 回 率 上 的 准确 率 。 


定 阵 模块 中 的 precision_ recall_curve() 国 数 已 经 把 所 有 这 些 都 计算 好 了 ， 如 下 面 代 人 三 
所 示 : 








>>> from sklearn.metrics import precision recall curve 
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>>> precision, recall, thresholds = precision recall curvel(ly_test, 
clf.predict (XxX test) 


一 个 类 别 的 预测 歼 末 可 接受 , 并 不 意味 着 对 其 他 类 别 的 预测 也 总 是 可 接受 的 。 这 可 以 从 下 面 
两 个 图 中 看 出 来 。 我 们 画 出 了 准确 率 / 召 回 紊 曲线， 分 别针 对 劣质 答案 分 类 〈 左 图 ) 和 优质 答案 
分 类 ( 右 图 ): 

















P/R (AUC=0.62) / poor answers P/R (AUC=0.70) / good answers 
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Recall Recall 


Ay 在 前 图 中 ， 我们 还 使 用 了 一 个 更 好 的 描述 分 类 器 性 能 的 方法 : 曲线 下 面积 
N (AUC )。 这 个 可 以 理解 为 分 类 器 的 平均 准确 率 ， 它 是 一 种 用 于 比较 不 同 分 类 器 
效果 的 好 方法 。 





可 以 看 到 ， 我 们 基本 上 可 以 不 用 考虑 预测 劣质 答案 了 ( 左 图 )。 这 是 因为 预测 劣质 答案 的 准 
确 率 下 降 得 非常 快 ， 并 停留 在 难以 接受 的 60% 上 ， 同 时 召回 率 也 已 经 很 低 了 。 


然而 ， 对 于 优质 答案 的 预测 ， 我 们 可 以 得 到 大 于 80% 的 准确 率 ， 同 时 召回 京 几乎 为 40%。 让 
我 们 用 下 列 代 人 码 找 出 所 需要 的 国 值 : 
>>> thresholds = mnp.hstack(([0],thresholads [medium])) 
>>> idx80 = precisions>=0.8 
>>> print ("P=%.2f R=%.2f thresh=%.2f" % \ (precision[idx80][0],， 
) 


recall[lidx80][0], threshold[idx80][0]) 
P=0.81 R=0.37 thresh=0.63 


将 国 值 设 为 0.63, 我 们 会 看 到 , 在 检测 优质 答案 的 时 候 ， 如 有 果 可 以 接受 37% 的 低 各 回 率 的 话 ， 
我 们 仍然 可 以 得 到 一 个 大 于 80% 的 准确 率 。 这 意味 着 ， 在 3 个 好 (原文 有 错 ) 答 采 中 我 们 只 能 检 
测 到 1 个 ， 但 对 这 些 已 经 检测 到 的 答案 ， 我 们 比较 确定 。 

要 把 这 个 国信 应 用 到 预测 过 程 中 ， 我 们 需要 使 用 preqict_proba()〈 它 可 以 返回 每 个 类 别 
的 概率 ) 而 不 是 predict ()【〔 它 返回 预测 的 类 别 本 号 )。 
































>>> thresh80 = threshold[1Idqx80] [0] 
>>> probs_for good = clf.predict proba(answer features)[:,1] 
>>> answer_ class = probs_ for good>thresh80 


我 们 可 以 用 classification report 确 认 我 们 得 到 了 预期 的 准确 率 和 召回 率 ”. 


>>> from sklearn.metrics import classification report 
>>> print (classification report(y_ test, clf.predict proba [:,1]>0.63, 


target names=['not accepted', 'accepted'l])) 
precision recall f1i-score support 
not accepted 0.63 0.93 0 .75 108 
accepted 0.80 0.36 0.50 92 
avg / total 0.71 0.67 0.63 200 
使 用 这 个 阅 值 并 不 能 保证 我 们 总 是 能 够 得 到 高 于 之 前 用 这 个 阅 值 所 确定 的 





准确 率 和 召回 率 。 
5.8 ”为 分 类 器 瘦身 
每 个 特征 的 实际 贡献 是 值得 观察 一 下 的 。 对 于 逻辑 回归 , 我 们 通过 已 经 掌握 的 系数 ( clfcoef ) 


直接 就 能 获知 这 个 对 特征 的 影响 力 , 一 个 特征 的 系数 越 蜗 , 这 个 特征 在 决定 帖子 好 坏 过 程 中 的 作用 
也 就 越 大 。 因 此 ， 负 值 系数 告诉 我 们 ， 对 应 特征 的 分 值 越 高 ， 将 帖子 分 类 为 坏 帖 子 的 信号 也 越 强 : 





Feature Importance for LogReg C=0.10 


LinkCount 


AvgWordLen 


加 
二 
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NumExclams 

NumAllCaps ， 

Numlmages fe 
NumCodeLines 





NumTextTokens 


QD 下方 代码 中 的 一 些 译文 如 下 : Precision 为 “准确 率 ”，recall 为 “召回 率 "，fl-score 为 “fl 分 值 ”，support 为 “支持 ”， 
not accepted 为 “不 接受 的 ”，accepted 为 “接受 的 ”，avg /total 为 “平均 /总 量 "”。 一 一 译 考 注 
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我 们 看 到 Linkcount 和 NumExclams 对 总 体 分 类 决策 的 影响 力 最 大 。 而 NumImages 和 
AvgSentLen 却 扮 演 J = 相对 边 绿 的 角色 。 总 体 来 说 特征 重要 性 在 直觉 上 很 有 道理 ， 但 让 人 感 
到 惊奇 的 是 ，NumImages 基 本 上 可 以 忽略 。 正 稼 情况 下 ,包含 网 像 的 答案 , 打分 总 是 很 高 的 。 然 
而 在 现实 中 , 答案 中 极 少 包含 网 像 。 所 以 它 尽管 在 原则 上 是 一 个 很 有 用 的 特征 , 但 是 太 过 稀 玻 了 ， 
没有 什么 价值 。 我 们 只 知 要 把 这 个 特征 抛弃 即 可 ， 最 后 仍然 可 以 得 到 相同 的 分 类 效果 。 














5.9 贷 





假设 我 们 想 把 这 个 分 类 带 整 合 到 我 们 的 网 站 中 ,那么 我 们 肯定 不 想 在 每 次 使 用 分 类 服务 时 都 
训练 一 次 分 类 融 。 那 么 , 我 们 可 以 在 训练 之 后 把 分 类 骨 序 列 化 , 然后 在 网 站 上 反 序 列 化 解析 出 来 : 





>>> import pickle 
>>> pickle.dump (clf, open("logreg.dat", "w")) 
>>> clf = pickle.load(open("logreg.dat", "r")) 


茶 喜 ， 分 类 融 现在 就 像 刚 和 被 训练 好 的 时 候 一 样 ， 可 以 使 用 了 。 


5.10 小结 


我 们 做 成 了 ! 针对 一 个 十 分 吐 杂 的 数据 集 ， 构 建 了 一 个 分 类 需 ， 然 后 达到 我 们 的 部 分 目标 。 
当然 ,我 们 需要 实事 求 是 ， 把 初始 的 目标 调整 到 可 以 达成 的 地 方 。 但 是 在 这 个 过 程 中 , 我 们 了 解 
到 了 最 邻近 和 逻辑 回归 算法 的 强项 和 弱点 。 我 们 学 到 了 如 何 提 取 特 征 ， 例 如 Dinkcount、 
NumTextTokens、 NumCodeLines.、 AvgSentLen.、 AvgWordLen、 NumAllCaps、 NumExclams 
和 NumImages， 以 及 如 何 分 析 它 们 对 分 类 需 性 能 的 影 啊 。 

但 更 有 价值 的 是 , 我 们 筝 握 了 一 个 调试 效 末 较 差 分 类 需 的 好 方法 。 这 在 未 来 将 帮助 我 们 更 快 
地 构建 有 效 的 系统 。 

在 深入 了 解 最 邻近 和 逻辑 回归 算法 之 后 ， 在 下 一 章 里 我 们 将 会 进一步 学 习 另 一 个 简单 而 强 
大 的 分 类 算法 : 朴 系 贝 叶 斯 。 在 这 个 过 程 中 , 我 们 还 会 学 到 如 何 使 用 Scikit-learn 里 一 些 更 便捷 的 
lle 






































对 于 公司 来 说 ， 紧 密 监 控 公 众 对 重要 事件 〈 例 如 产品 发 布 或 者 新 闻 发 布 ) 的 态度 十 分 重要 。 
由 于 推 特 〈Twitter ) 里 由 用 户 生 成 的 内 容 已 经 很 容易 实时 访问 到 ， 因 此 我 们 现在 可 以 对 推 文 的 情 
感 进行 分 类 。 有 时 这 也 叫做 观点 挖 据 ( opinion mining )。 这 是 一 个 非常 活跃 的 研究 领域 ， 而 且 一 
些 公司 已 经 开始 销售 这 类 产品 了 。 可 见 市 场 前 景 广阔 。 因 此 , 我 们 有 充足 的 理由 用 前 一 草 中 构建 
的 分 类 模型 来 制作 目 己 的 情感 分 类 需 。 

















6.1 路 线 图 概述 

对 推 文 进行 情感 分 析 是 比较 困难 的 ， 因 为 推 文 的 长 度 有 140 个 字符 的 限制 。 这 就 导致 一 些 特 
殊 句 法 ,创造 性 缩写 ， 以 及 很 少 碰 到 的 句 式 的 出 现 。 因 此 ,分 析 句 子 ， 聚集 文 段 的 情感 信息 ， 然 
后 再 计算 文档 总 体 情感 这 样 的 通用 方法 ， 在 这 里 并 不 奏效 。 

准确 地 说 ， 我 们 并 不 是 要 构建 一 个 先进 的 情感 分 类 需 。 相 反 ， 我 们 要 做 到 以 下 几 点 。 

口 将 这 个 应 用 情景 作为 一 种 手段 来 介绍 另 一 个 分 类 算法 : 朴 桑 贝 叶 斯 。 

口 阐释 词性 (Part Of Speech，POS ) 标注 是 如 何 工作 的 ， 以 及 怎样 用 它 来 帮助 我 们 。 

口 展示 Scikit-learn 工 具 箱 中 一 些 偶尔 出 现 的 小 技巧 。 











6.2 ”获取 推 特 (Twitter〉 数 据 


不 用 说 , 我 们 需要 获取 推 文 以 及 它们 对 应 的 标签 , 从 而 了 解 这 个 推 文 包含 了 正面 、 负面 还 是 
中 性 的 情感 。 在 本 章 中 , 我 们 会 使 用 来 自 于 Niek Sanders 的 语料库 。 他 完成 了 邻 人 敬 旦 的 标注 $000 
多 个 推 文 的 工作 ， 并 允许 我 们 在 本 章 里 使 用 。 


为 了 遵从 推 特 的 服务 条 球 , 在 本 莉 里 我 们 并 不 会 提供 任何 推 符 的 数据 或 者 显示 出 任何 真实 的 
推 文 。 相 反 ， 我 们 会 使 用 Sanders 的 人 工 标注 数据 〈 它 包含 推 文 的 ID 和 情感 标签 )， 并 使 用 脚本 
install.py 来 获取 相应 的 推 乱 数据 。 这 个 脚本 与 推 竺 服务 融 能 够 很 好 地 交互 ， 下 载 所 有 5000 多 个 推 
文 只 需要 一 点 时 间 。 所 以 ， 现 在 束 开 始 吧 。 
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数据 中 包含 4 种 情感 标签 : 


>>> X, Y = load sanders data() 
>>> classes = np.unique(Y) 
>>> for c in classes: 
print("#%s: $i" %$ (c, sum(Y==c))) 
#irrelevant: 543 
#negative: 535 
#neutral: 2082 
#positive: 482 


把 无 关 的 和 中 性 的 标签 放 在 一 起 , 并 忽略 所 有 的 非 英 语 推 文 ， 最 后 会 得 到 3642 个 推 文 。 我 们 
很 容易 就 可 以 从 推 特 提 供 的 数据 里 面 把 这 些 推 文 过 滤 出 来 。 





6.3” 朴 系 贝 叶 斯 分 类 器 介绍 


朴 系 贝 叶 斯 可 能 是 最 优美 的 有 实际 效用 的 机 各 学 习 算 法 之 一 了 。 尽管 它 的 名 字 叫 做 朴素 , 但 
当 你 看 到 它 的 分 类 效 来 的 时 候 , 你 会 发 现 它 并 不 是 那么 朴 系 。 它 对 无 关 特 征 的 处 理 能 力 十 分 彪 悍 ， 
无 关 特 征 会 被 目 然 忽略 挥 。 用 它 进 行 和 学 习 和 预测 的 速度 都 很 快 ， 而 且 它 并 不 需要 很 大 存储 空间 。 
所 以 ， 为 什么 叫 它 朴素 呢 ? 

朴素 之 所 以 成 为 它 名 字 的 一 部 分 , 是 因为 有 一 个 能 让 贝 叶 斯 方法 最 优 工作 的 假设 : 所 有 特征 
需要 相互 独立 。 然 而 ， 在 实际 应 用 中 ,这 种 情况 很 少 发 生 。 尽 管 如 此 ， 在 实践 中 ， 甚 至 在 独立 假 
设 并 不 成 立 的 情况 下 ， 它 仍然 能 达到 非常 好 的 正确 座 。 




















6.3.1 了 解 贝 叶 斯 定理 


朴素 册 叶 斯 的 核心 功能 是 跟踪 哪个 特征 在 哪个 类 别 中 出 现 。 为 了 更 容易 理解 这 些 , 让 我 们 假 
设 下 面 这 些 变 量 的 含义 。 我 们 将 会 用 它们 来 解释 朴素 贝 叶 斯 方法 。 


变 量 可 能 的 取 值 合 义 
C “pos” “neg” 推 文 的 类 别 〈 正 或 负 ) 
nh 非 负 整数 统计 awesome 在 推 文中 出 现 的 次 数 
Pf 非 负 整数 统计 crazy 在 推 文中 出 现 的 次 数 


在 训练 阶段 ,我 们 学 习 了 朴 兹 贝 叶 斯 模型 ， 就 是 在 已 知 特征 互 和 玖 的 情况 下 样本 属于 某 类 别 
C 的 概率 。 这 个 概率 可 以 写成 P(C | F,F,)。 


由 于 我 们 无 法 直接 估计 出 这 个 概率 ， 我们 可 以 使 用 一 个 技巧 ， 而 这 个 技巧 正 是 由 贝 叶 斯 发 
现 的 : 





P(A):P(B| A)= P(B): P(A|B) 


6.3 ”朴素 贝 叶 斯 分 类 器 介绍 91 





如 有 果 我 们 把 4 巷 换 成 特征 FI 和 互 共 现 的 概率 ,把 B 想 象 成 我 们 的 类 别 C， 那么 就 会 得 到 一 个 天 
联 藉 系 ， 可 以 玫 我 们 求 出 数据 样本 属于 有 菏 个 特定 类 别 的 概率 : 


P(F,E):P(CIF ,LE,)= P(C):P(F,b, |O) 
我 们 可 以 用 其 他 概率 来 表达 P(C | ,了 )): 


PIO: PK, P|O) 


P(CIF,F,)= PFLF) 
P03 


我 们 也 可 以 说 : 


后 验 概率 prior :likelihood 
语 挫 概 涩 = 一 一 一 一 一 一 一 


evidence 


先 验 (prior ) 和 证 据 ( evidence ) 的 数值 很 容易 确定 。 


D P(O) 就 是 在 不 知道 效 据 时 类 别 C 时 的 移 验 概率 。 这 个 数值 可 以 通过 计算 训练 集中 属于 特定 
类 别 的 样本 比例 来 得 到 。 

口 PP) 就 是 证 据 ， 或 是 说 是 特征 瑟 和 到 的 概率 。 这 可 以 通过 计算 训练 集中 售 有 特定 特征 
值 的 样本 比例 来 得 到 。 

D 比较 微妙 的 部 分 是 计算 似 然 ( likelihood ) PP 天 | C)。 这 个 值 告诉 我 们 ， 如 果 知 道 样本 
的 类 别 C， 那 么 有 多 大 的 可 能 性 可 以 看 到 特征 值 蚀 和;。 要 售 计 这 个 概率 ， 我们 需要 多 一 
点 思考 。 











6.3.2 ”朴素 
在 概率 论 中 ， 我 们 还 知道 以 下 关系 : 
P(F,F|C)=P(F |C):P(E, |C,F) 


然而 ， 这 个 式 子 本 喘 并 没有 多 大 帮助 ， 因 为 我 们 把 一 个 困难 的 问题 (估算 P(F1, 丈 | O) ) 变 
成 了 另外 一 个 困难 问题 ( 估算 P(F;| C, Rf) )。 


然而 ， 如 果 我 们 朴素 地 假设 FI 和 成 相互 独立 ， 那么 就 可 以 把 P(z | C,F) 简 化 成 P(UF | CO 〇 ， 写 
成 如 下 式 子 : 





P(F,F|C)=P(F |C):P(E, |O) 
如 果 把 所 有 东西 都 放 在 一 起 ， 我 们 就 可 以 得 到 一 个 比较 容易 处 理 的 式 子 : 


P(C):P(R |O)- P(E |O) 


P(CIF,F,)= 总 六 万] 
2 
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有 趣 的 是 , 我 们 随心 所 欲 对 假设 进行 调整 ,在 理论 上 可 能 并 不 正确 , 但 在 实际 应 用 中 却 会 产 
生 令 人 惊讶 的 效果 。 
6.3.3 ”使 用 朴素 贝 叶 斯 进行 分 类 
对 一 个 给 定 的 新 推 文 ， 剩 下 的 工作 就 是 简单 地 计算 概率 : 
PUC = “pos”|F, Fy) = P(C="pos").P(P C="pos").P(FalC="pos") 


P(F1,Fs) 


Pp C=" bb .Pp FP C=" 3 .PP F: C=" ea 
P(C = “neg’|m,B)= 二 ee 一 起 区 人 





我 们 还 需要 选择 概率 最 高 的 类 别 Cpbow。 对 于 这 两 个 类 别 来 说 , 由 于 分 母 P(Pm, 丈 ) 都 是 一 样 的 ， 
所 以 我 们 可 以 把 它们 人 简单 忽略 ， 这 并 不 会 改变 最 后 胜出 的 类 别 。 

但 要 注意 的 是 , 我 们 不 用 再 计算 任何 概率 ， 相反, 我 们 要 根据 给 定 的 证 据 估 算出 哪个 类 别 更 
有 可 能 。 这 就 是 朴 系 贝 叶 斯 为 什么 比较 健壮 的 另 一 个 原因 : 它 对 真实 概率 并 不 感 兴 趣 ， 而 只 是 注 
重 哪 个 类 别 更 有 可 能 。 人 简 而 言 之 ， 我 们 可 以 把 它 写 成 : 

Cbest remaxeeeCPe =€6)* PLNIC =€) PlyIC 三 oO 

这 里 我 们 对 所 有 类 别 C (“pos” 和 “neg”) 都 计算 了 argmax 后 面 那 一 项 ， 并 返回 数值 最 高 的 
但 在 下 面 这 个 例子 中 , 让 我 们 将 真实 概率 保留 下 来 , 并 进行 了 一 些 计 算 , 来 看 看 朴 桑 贝 叶 斯 


是 如 何 工 作 的 。 为 简单 起 见 ， 假 设 推 文 只 包括 前 面 出 现 的 两 个 词语 awesome 和 crazy， 并 且 ， 我 们 
已 经 对 少量 推 文 进行 了 人 工分 类 : 











类 别 








推 文 类 别 
dWesome 
dWesome 
awWcesome crazZy 
crazy 


CTaZy 


上 


crazy 


在 这 里 我 们 有 6 个 推 文 ， 其 中 4 个 是 正 例 ，2 个 是 负 例 ， 可 以 得 到 以 下 先 验 概率 : 


WN 7) 中 
P(C="*pos’)= SO 
P(E =Mneg = 所 


6 


0.67 
0.33 








这 意味 着 ， 我 们 在 不 知道 推 文本 身 任何 信息 的 情况 下 ， 就 可 以 假设 推 文 是 正 例 。 
这 里 还 落下 了 对 PC | OO 和 PCm | CO) 的 计算 。 它 们 是 特征 I 和 成 相对 于 类 别 C 的 条 件 概率 。 
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要 得 到 这 两 个 概率 ， 可 以 用 包含 具体 特征 值 的 推 文 个 数 除 以 标注 为 类 别 C 的 推 文 个 数 来 计 
算 。 比 如 我 们 希望 知道 在 类 别 为 “ 正 ” 的 推 文中 看 到 一 次 awesome 的 概率 ;我 们 有 以 下 公式 : 


人 sy 
P(F = 1|C = “pos”) = # 包 含 一 次 awesome 的 推 文正 例 a 


# 推 文正 例 


既然 在 4 个 推 文正 例 中 有 3 个 包含 了 词语 awesome， 那 么 显然 ， 不 包含 awesome 的 推 文正 例 的 
概率 与 此 相反 ， 这 是 因为 我 们 只 使 用 了 词语 个 数 为 0 或 1 的 推 文 : 


PER=00= "p08 = 1= P=1C0= "po =025 
和 镜 下 的 概率 也 与 此 类 似 ( 这 里 忽略 了 不 在 推 文中 出 现 的 词语 ): 





Ee 
P(A) = 二 和 0 
R(T) 


为 了 保持 完整 性 , 我 们 还 要 计算 证 据 ， 以便 可 以 在 下 和 面 这 个 示例 推 文中 得 到 真实 概率 。 对 于 
所 和 瑟 两 个 特征 的 具体 值 ， 我 们 计算 证 据 如 下 : 


PR bho) = Do (Do 6 


—™ Pl oI Ev Ce) 
符号 "可 以 得 到 下 面 这 些 值 . 





P(i 二 =1)= 间 :和 二 二 22 
P(F1=1,F2=0)=$:$+0:é$=0.44 
P(Fi =0,F=1)=0.:$+1:é@= 0.33 


P(Fi =0,F,=0)= 
现在 拥有 了 对 新 推 文 进行 分 类 所 需 的 所 有 数据 。 接 下 来 , 唯一 要 做 的 就 是 解析 推 文 ,并 提取 


推 文 Fi 三 类 别 概率 分 类 结果 

awesome 1 0 P(C = “pos’|fi,P) = 3 =0.57 下 例 
P(O="neg’|Fi, Fy) 0.33.0.0 =0 

crazy 0 1 有 oaroasna =0.25 ” 负 例 
PIC = Mpeg’|B, FP) 一 + 0: 中 -=< 

awesome 1 1 PO Sor lB) wer os0s =0.76 ” 正 例 

craZy P(C 2 “neg” i， 用) — 0.33.0'1 和 0 下 Ey 

awesome text 0 0 P(C =*pos" Fi; 3) = ord 50 =? 未 定义 ， 因 为 我 们 在 推 文中 没 
P(C 站 “neg” Fi, Be 0.33:0:0 二 6 0 人 见 过 这 个 词语 








到 现在 为 止 ,一切 看 起 来 午 很 好 。 对 简单 推 文 的 分 类 看 上 去 很 有 赴 理 ,除了 最 后 一 个 会 除 以 
0。 那 么 我 们 该 如 何 处 理 这 种 情况 呢 ? 





6.3.4 考虑 未 出 现 的 词语 和 其 他 古怪 情况 


在 计算 前 面 提 到 的 概率 时 , 我 们 其 实 欺骗 了 日 己 。 我 们 并 没有 计算 出 真实 概率 ， 只 是 通过 比 
例 大 致 得 出 了 一 个 近似 值 。 当 时 我 们 假设 训练 场 料 已 经 告诉 了 我 们 关于 真实 概率 的 所 有 真相 , 但 
实际 上 并 没有 。 一 个 只 有 6 个 推 文 的 语 料 明 显 无 法 告诉 我 们 曾 写 过 的 各 种 推 文 的 所 有 信息 。 例如 ， 
肯定 有 一 些 推广 用 到 了 “text” 这 个 词语 ， 但 我 们 还 没有 看 到 。 显 然 ， 我 们 的 近似 太 过 粗糙 了 ， 
我 们 应 该 把 这 些 没 有 看 到 过 的 词语 也 考虑 进去 。 在 实践 中 ， 这 通常 是 通过 “加 1 平滑 ”( add-one 
smoothing ) 实现 的 。 




















加 1 平滑 有 时 也 叫做 加 法 平滑 (additive smoothing ) 或 者 拉 普 拉 斯 平滑 
yy ( Laplace smoothing )。 注 意 ， 拉 普 拉 斯 平滑 和 拉 普 拉 斯 算 子 平滑 (Laplacian 
a smoothing ) 没有 任何 关系 。 拉 普 拉 斯 算 子 平滑 是 关于 多 边 形 网 格 平滑 的 。 如 果 
你 不 是 通过 加 1， 而 是 通过 一 个 可 调整 的 大 于 0 的 参数 alpha 来 平滑 ， 那 么 这 就 叫 

做 Lidstone 平 滑 。 








这 是 一 个 非常 简单 的 技术 ， 只 需要 在 所 有 计数 上 加 1 就 可 以 实现 了 。 它 背后 的 假设 是 ， 即 使 
我 们 在 整个 语 料 中 并 没有 看 到 过 菏 个 词语 , 但 仍 有 一 点 可 能 性 是 因为 我 们 的 推 文 样本 中 只 是 碰巧 
没有 包含 那个 词语 。 所 以 ,采用 加 1 平 渭 之 后 ， 我 们 假 疙 每 个 词语 剖 出 现 过 一 次 ,虽然 这 和 我 们 
实际 看 到 的 不 同 。 这 意味 春 将 不 会 按照 下 面 的 方式 计算 : 








ROSelC 二 6) 全 S07 
而 是 像 现在 这 样 计算 : 


P(F = 1|C =“pos"”)= 3 = 0.67 


我 们 为 什么 要 在 分 母 上 加 2 呢 ? 因为 我 们 必须 确保 最 后 的 结 采 仍然 是 一 个 概率 。 因 此 ， 我 们 
就 需要 对 计数 进行 归 一 化 ， 使 所 有 的 概率 相 加 得 1。 和 当前 数据 集中 的 awesome 一 样 ， 会 出 现 两 
种 情况 : 0 次 或 1 次 。 事 实 确 实 如 此 ， 我 们 得 到 的 总 体 概率 为 1: 








P(FI=1C="por )+ P(Mm =0|C = "pos )= 十 这 > 一 1] 
同样 ， 我 们 也 对 先 验 概率 进行 平滑 : 


PlG "po ee 3 ~ 0.625 
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6.3.5 ”考虑 算术 下 汁 


这 里 还 有 另外 一 个 路 障 。 在 现实 中 , 我 们 要 处 理 的 概率 值 比 这 个 简单 例子 要 小 得 多 。 在 现实 
我 们 不 止 使 用 两 个 特征 ， 还 可 能 将 它们 相 乘 。 这 将 就 会 导致 NumPy 所 提供 的 精度 不 够 用 : 








中 


3 


>>> import numpy as np 

>>> np.set printoptions (precision=20) # tell numpy to print out more 
digits (default is 8) 

>>> np.array ([2.48E-3241]) 

array([ 4.94065645841246544177e-324j]) 

>>> np.array([2.47E-324]) 

array([ 0.1]) 


那么 ， 有 多 大 的 可 能 性 碰 到 形 如 2 .47E-324 这 样 的 数字 呢 ?” 要 回答 这 个 问题 ， 我 们 只 需要 
想象 一 个 条 件 概率 0.000 1， 然 后 把 65 个 概率 乘 在 一 起 ( 意思 是 说 , 我 们 有 65 个 这 样 的 低 概 率 的 特 
征 值 )。 你 就 会 看 到 算术 下 淤 : 

>>> x=0.00001 

>>> XxX**64 # 仍然 可 以 

1e-320 

>>> xX**65 # 哎哟 

0.0 

Python 中 的 Eloat 通 和 是 由 C 中 的 aouble 实 现 的 。 要 验证 你 的 平台 是 否 有 这 个 问题 ， 你 可 以 
通过 以 下 方式 查看 : 














>>> import sys 

>>> sys.float_info 

sys.float info(max=1.7976931348623157e+308, max_ exp=1024, max_ 10_ exp=308, 
min=2.2250738585072014e-308, min_ exp=-1021, min 10 exp=-307, dig=15, mant dig=53, 
epsilon=2.220446049250313e-16, radix=2, rounds=1) 


要 进行 移植 , 你 可 以 改 用 其 他 数学 限 数 库 , 例如 mpmath ( http://code.google.com/p/mpmath/ )， 
它 人 允许 任意 精度 。 然 而 ， 它 们 的 速度 不 够 快 ， 不 足以 代 蔡 NumPy。 

筠 运 的 是 , 我 们 有 一 个 更 好 的 方式 来 处 理 它 , 这 和 一 个 看 起 来 很 优美 的 关系 式 有 关 ,， 你 可 能 
在 学 校 的 时 候 就 已 经 知道 它 了 : 

















log(z :yy) = log(2) + log(y) 
如 果 把 它 应 用 到 我 们 的 例子 里 ， 就 可 以 得 到 下 面 这 个 式 子 : 
log [P(C): P(Fi|C): P(F2|C)] = log P(C) + log P(F1|C) + log P(F2|CO) 


由 于 概率 值 处 于 0 到 1 的 区 间 之 中 ， 概 率 值 取 log 后 会 处 于 -% 到 0 之 间 。 你 不 要 因为 这 个 而 感 
到 不 快 。 较 高 的 值 仍 然 强 烈 地 预示 看 正确 的 类 别 一 一 只 不 过 它们 现在 是 负 值 而 已 。 


Relationship between probabilities and their logarithm 四 


a 








有 一 个 需要 注意 的 地 方 : 实际 上 我 们 在 公式 中 并 没有 使 用 log ( 前面 的 部 分 )， 而 是 只 使 用 了 
概率 的 乘积 。 在 这 里 很 幸运 ,我 们 对 概率 的 实际 数值 并 不 感 兴趣 。 我 们 只 想 知 道 哪 个 类 别 具 有 最 
高 的 后 验 概率 。 我 们 是 幸运 的 ， 因 为 如 果 我 们 发 现 : 


P(C = "pos”|Fi,F2) > P(C = “neg’”|Fi, Fo) 
那 我 们 就 可 以 有 如 下 关系 : 
log P(C ="“pos’”|Fi, F2) > log P(C = “neg” |Fi, Fy) 


浏览 一 下 前 图 就 可 以 看 到 ， 曲 线 从 左 到 右 不 会 下 降 。 稍 而 言 之 ， 取 对 数 并 不 会 改变 最 高 值 。 
所 以 我 们 保留 之 前 使 用 过 的 公式 : 


Cpost = argmaxecc P(C =0):P(FC = 0).P(F|C =0) 
我 们 会 用 它 来 得 到 用 这 两 个 特征 在 真实 数据 上 推算 最 佳 类 别 的 公式 : 
Cbest = arg maxcec log P(C = c)+P(FIC = 0+logP(F2|C = o) 
当然 ， 如 果 只 使 用 两 个 特征 , 效果 不 会 很 好 。 所 以 让 我 们 重 写 这 个 公式 , 使 它 能 允许 包含 任 
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意 多 个 特征 : 


Cbew = are imaxeee (og RICE 可 于 > (RIC = ee) 


我 们 已 经 准备 好 了 ， 使 用 来 自 Scikit-learn 工 具 箱 的 我 们 的 第 一 个 分 类 器 吧 。 





6.4 ”创建 第 一 个 分 类 器 并 调 优 
朴素 贝 叶 斯 分 类 器 居于 sklearn.naive_bayes 工 具 包 之 中 。 那 里 有 不 同 种 类 的 朴素 贝 叶 其 


D GaussianNB 它 假设 特征 是 正太 分 布 的 ( Gaussian )。 它 的 一 个 使 用 场景 是 ， 根 据 给 定 人 
物 的 高 度 和 宽度 ， 判 定 这 个 人 的 性 别 。 而 我 们 的 例子 ， 从 给 定 推 文 文本 中 提取 出 词语 的 
个 数 ， 很 明显 不 是 正太 分 布 的 。 

D MultinomialNB 它 假设 特征 就 是 出 现 次 数 。 这 和 我 们 是 相关 的 ， 因 为 我 们 会 把 推 文中 
的 词 频 当 做 特征 。 在 实践 中 ， 这 个 分 类 带 对 TF-IDF 回 量 也 处 理 得 不 错 。 

DBernou1L1LiINB 这 和 MultinomialNB 类 似 ， 但 更 适 于 判断 词语 是 否 出 现 了 这 种 二 值 特征 ， 
而 不 是 词 频 统 计 。 


由 于 我 们 主要 要 看 词 舍 出 现 次 数 ， 所 以 MultinomialNB 最 适合 。 























6.4.1 先 解 决 一 个 简单 问题 

正如 我 们 在 推 文 数据 中 所 看 到 的 ， 推 文 的 情感 并 不 只 有 正面 或 人 负面。 实际 上 大 多 数 推 文 并 不 
包含 任何 情感 ， 它 们 是 中 性 的 或 者 无 关 的 ， 例 如 一 些 原始 信息 (New book: Building Machine 
Learning ... httbp://Link)。 这 会 产生 4 个 类 别 。 为 避免 任务 过 于 复杂 ， 我 们 只 专注 于 正面 和 
负面 的 推 文 : 


>>> pos_neg_ idx=np.logical or(Y=="positive", Y=="negative") 








>>> X = X[pos_ neg_ idx] 
>>> Y = Y[pos neg_idx] 
>>> Y = 


现在 ,我 们 有 了 原始 推 文 文本 (在 x 中 ) 和 二 分 类 结果 ( 在 Y 中 ); 我 们 将 0 赋 子 负 例 ， 将 1 赋 
予 正 例 。 

正如 在 前 - 草 中 所 学 到 的 ， 我 们 可 以 创建 Tfidfvectorizer， 将 原始 推 文 文本 转换 为 
TE-IDE 特 征 值 。 我 们 把 它们 和 标签 放 在 一 起 ， 来 训练 第 一 个 分 类 需 。 为 方便 起 见 ， 我 们 使 用 
Pipeline 类 。 它 人 允许 我 们 将 加 量化 处 理 硕 和 分 类 融 绪 合 到 一 起 ， 并 提供 相同 的 接口 : 


from sklearn.feature extraction.text import TfidfVectorizer 


Y=="positive" 











from sklearn.naive bayes import MultinomialNB 
from sklearn.pipeline import Pipeline 


def create ngram model () : 
tfidf ngrams = TfidfVectorizer (ngram range=(1, 3), 
analyzer="word", binary=False) 
clf = MultinomialNB () 
pipeline = Pipeline([('vect', tfidf ngrams), ('clf', clf)]) 
return pipeline 
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create ngram modqel () 国 数 返回 的 Pipeline 实 例 可 以 用 于 fit () 和 和 predict()， 就 像 我 
们 有 一 个 正常 的 分 类 帮 。 

由 于 并 没有 太 多 的 数据 , 所 以 我 们 要 进行 交叉 验证 ,然而 在 这 个 时 候 , 我 们 并 不 使 用 KFola， 
因为 它 会 把 数据 切 分 成 连续 的 几 折 。 相 反 ， 我 们 使 用 snufflesplit。 它 会 将 数据 打 散 ,但 并 不 
能 保证 相同 的 数据 样本 不 会 出 现在 多 个 数据 折 中 。 对 于 每 一 打数 据 ， 我 们 会 跟踪 准确 -各 回 曲线 
下 面 的 面积 ， 以 及 正确 率 。 


为 了 使 我 们 的 实验 进程 保持 敏捷 ， 让 我 们 把 所 有 东西 部 打包 在 一 起 ， 放 在 train_model () 
孙 数 中 。 它 会 把 创建 分 类 右 的 函数 当做 参数 传 入 : 


from sklearn.metrics import precision recall curve, auc 








from sklearn.cross validation import ShuffleSplit 


def train model (clf factory, X, Y): 
# 设置 随机 状态 来 得 到 确定 性 的 行为 
cv = ShuffleSplit (n=len(X), n iter=10, test size=0.3, 
indices=True, random state=0) 


scores = [|] 
pr_scores = [|] 


for train, test in cv: 
xX train, y_train = X[train], Yltrainl] 
XxX test, y test = XI[test], Yltestl 


clf = clf _ factory!() 
clf.fit(x train, y_train) 


train Score = clf.score(XxX train, y_train,) 
test Score = clf.score(X test, y_ test) 


scores.append (test_ Score) 
proba = clf.predict proba (xX test) 


precision, recall, pr_thresholds = precision recall curvel(ly_test, 
probal[l:,1]) 


pr_scores.append(auc (recall, precision)) 


summary = (np.mean (scores), np.std(scores), 
np.mean (pr_scores), np.std(pr_ scores)) 
print "%.3f\t%.3f\t%.3f\t%$.3f"S$summary 


>>> X, Y = load sanders data() 

>>> pos_neg_ idx=np.logical or (Y=="positive", Y=="negative") 
>>> XxX = X[pos med idx] 

>>> Y = Y[pos _ med idx] 

>>> Y = Y=="positive" 

>>> train model (create ngram model) 

0.805 0.024 0.878 0.016 
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当 我 们 第 一 次 尝试 在 向 量化 的 TFE-IDF 三 元 组 特征 上 使 用 朴素 贝 叶 斯 方法 的 时 候 ， 我 们 得 到 
了 80.5% 的 正确 率 ， 以 及 87.8% 的 PR AUC。 下 图 显示 了 PR 图 表 ， 它 比 前 一 章 中 看 到 的 结果 更 加 
邻 人 鼓舞 。 








P/R curve (AUC=0.88) / pos vs neg 
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这 是 第 一 次 ， 结 来 振奋 人 心 。 当 我 们 意识 到 在 情感 分 类 任务 中 100% 的 正确 认可 能 永远 也 无 6 
法 达到 的 时 候 ， 这 些 绪 末 更 加 令 人 印象 次 刻 。 对 一 些 推 文 , 我 们 人 类 其 至 也 经 常 无 法 对 分 类 的 标 
SA 达成 一 致 。 


6.4.2 ”使 用 所 有 的 类 


但 是 ， 我 们 再 一 次 简化 了 任务 ， 虽 然 只 简化 了 一 点 ， 只 使 用 了 正 / 负 情 感 的 推 文 。 这 意味 着 
我 们 假设 有 一 个 完美 的 分 类 各 ,可 以 预 完 对 推 文中 是 否 包 含 某 种 情感 进行 区 分 , 并 把 结 来 传 给 我 
们 的 朴素 贝 叶 斯 分 类 天。 

所 以 , 如果 我 们 对 推 文中 是 否 包含 情感 也 进行 分 类 , 那么 效果 会 如 何 呢 ? 要 将 此 事 弄 个 水 落 
石 出 , 我 们 先 写 了 一 个 便捷 的 函数 , 用 它 返 回 修正 后 的 类 别 数组 。 这 个 数组 包含 了 一 个 情感 列表 ， 
我 们 把 它们 看 作 正 例 。 

def tweak labels(Y, pos_ sent list): 


Dos = Y==pos_sent list[0] 
for sent _ label in pos_ sent list[1:]: 











撤 























pos |= Y==sent_label 
Y = np.zZeros(Y.shapel[0l]) 
Ylpos] = 1 
Y = Y.astype (int) 


return Y 


注意 ,现在 我 们 谈论 的 是 两 种 不 同 的 正 例 。 一 个 推 文 的 情感 可 以 是 正面 的 , 这 可 以 从 训练 数 
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据 的 类 别 里 把 它 区 分 出 来 。 如 果 , 例如 ,我们 想 要 弄 清楚 从 中 性 推 文中 区 分 出 市 有 情感 的 推 文 的 
效果 是 如 何 的 ， 那 么 可 以 按照 下 列 方法 进行 : 

>>> Y = tweak labels(Y, ["positive", "negative"]) 


在 Y 中 ，1 ( 正 类 别 ) 表示 所 有 包含 正面 或 负面 情感 的 推广 ,0 ( 负 类 别 ) 代表 中 性 或 者 无 关 
的 推 文 。 





>>> train model (create ngram model, XxX, Y, plot=True) 
0.767 0.014 0.670 0.022 


正如 预期 的 那样 ，P/R AUC 下 降 得 非常 多 ， 现 在 只 有 67%。 正 确 率 仍然 很 高 ， 但 这 只 是 因为 
我 们 的 数据 集 非常 不 平衡 。 在 总 共 3642 个 推 文 中 ， 只 有 1017 个 包含 正面 或 负面 情感 ， 大约 后 全 部 
推 文 的 28%。 这 意味 春 如 果 我 们 创建 一 个 分 类 融 ， 总 把 推 文 分 到 不 包 合 任何 情感 的 类 别 中 去 ,， 那 
么 就 已 经 得 到 了 72% 的 正确 座 。 这 就 是 为 何在 训练 和 测试 数据 不 均衡 的 情况 下 要 查看 准确 率 和 召 
回 率 的 又 一 例证 。 

















P/R curve (AUC=0.68) / sent vs rest 
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那么 , 用 朴 和 又 贝 叶 斯 分 类 带 对 “正面 情感 的 推 文 vs. 余 下 的 推 文 ， 或 者 “负面 情感 的 推 文 vs. 
余下 的 推 文 ”进行 分 类 ， 歼 果 又 如 何 呢 ? 一 个 字 : 差 。 


== Pos VS. rest == 


0.866 0.010 0 .327 0.017 
== Neg VS . rest == 
0.861 0.010 0.560 0.020 


如 有 果 你 问 我 ， 我 会 告诉 你 这 个 结果 非 第 不 可 用 。 看 看 下 图 中 的 P/R 曲 线 ， 我 们 还 会 发 现 甚至 
连 有 用 的 准 硝 率 / 侣 回 率 折 中 郡 没有 ， 这 并 不 像 我 们 在 前 一 章 中 做 到 的 那样 。 





P/R curve (AUC=0.31) / pos vs rest ~_P/R curve (AUC=0.51) / neg vs rest 
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6.4.3 ”对 分 类 器 的 参数 进行 调 优 


当然 , 我们 还 没有 对 当前 的 实验 设置 进行 足够 的 探索 。 而 这 是 应 该 多 研究 一 下 的 。 大 致 有 两 
个 应 当 实 验 一 下 的 地 方 : TfidfVectorizer 和 MultinomialNPB。 由 于 我 们 还 不 太 清 楚 有 具体 应 该 
探索 哪里 ， 所 以 让 我 们 先 把 它们 的 参数 值 分 一 下 类 。 














[TfidfVectorizer 


qa 使 用 不 同 的 NGrams 设 置 : 一 元 组 (1,1)、 二 元 组 (1,2) 和 三 元 组 (1,3 )。 

@ 采用 min_qf: 1 或 者 2。 

昌 探索 IDF 的 影响 ， 在 TrFE-IDF 中 使 用 user_ idf 和 smooth idf: False 和 True。 

图 是 否 删除 停 用 词 ， 通过 设置 stop_words 为 English 或 None。 

上 是 否 对 词 频 取 对 数 ( sublinear tf )。 

昌 通过 设置 binary 为 True 或 False, 来 试验 是 否 要 追踪 词语 出 现 次 数 或 者 只 是 简单 记 
录 词 霹 出 现 与 否 。 











DD MultinomialNB 


@ 通过 设置 alpha 值 ， 决 定 使 用 下 面 哪 种 平滑 方法 。 
昌 加 1 或 拉 普 拉 斯 平滑 : 1。 
四 Lidstone 平 消 : 0.01、0.05、0.1 或 0.5。 


国 不 使 用 平滑 : 0o 


有 一 个 简单 的 方法 是 ,对 所 有 这 些 有 意义 的 取 值 都 训练 一 个 分 类 大, 同时 保持 其 他 参数 不 变 ， 
然后 查看 分 类 带 的 效果 。 由 于 我 们 并 不 知道 这 些 参 数 是 否 互相 影响 ,所 以 要 做 得 正确 ,就 需要 我 
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们 对 每 个 可 能 的 参数 组 合 都 训练 分 类 需 。 很 明显 ， 这 样 做 太 过 乏味 元 长 了 。 
为 这 类 参数 搜索 在 机 器 学 习 任 务 中 经 常 发 生 ， 所 以 Scikit-learn 里 面 有 一 个 专门 的 类 处 理 
它 ， 叫 做 GriaqsearchcV。 它 使 用 一 个 估算 器 (一 个 接口 跟 分 类 器 一 样 的 实例 )， 在 我 们 这 里 是 
一 个 管道 实例 ， 和 一 个 包含 所 有 可 能 值 的 参数 字典 。 
GridSearchcCV 要 求 字 典 的 键 遵守 特定 的 格式 , 使 得 能 够 对 正确 的 估算 右 设 置 参 数 。 这 个 格 
式 如 下 所 示 : 


<estimator> <subestimator> ... <param name> 


现在 ， 如 果 我 们 要 指定 Tfidfvectorizer (在 Pipline 描 述 中 叫做 vect ) 中 min_ qt 人 参数 
的 探索 预期 值 ， 我 们 要 说 : 


Param grid={"vect ngram range"=[(1, 1), (1, 2), (1, 3)]} 





这 是 说 ,将 一 元 组 ( unigrams )、 二 元 组 (bigrams ) 和 三 元 组 ( trigrams ) 作 为 TfidfVvectorizer 
中 ngram_range 参 数 的 参数 值 ， 计 Gridseachcv 去 尝试 。 


然后 ， 用 所 有 可 能 的 参数 / 值 组合 来 训练 估算 铝 。 最 后 ， 通 过 成 员 变 量 best_estimator_ 获 
得 最 优 的 估算 需 。 


由 于 我 们 要 拿 返 回 的 最 优 分 类 融和 当前 的 最 优 分 类 需 做 比较 ,我 们 就 需要 使 用 同样 的 方式 进 
行 评估 。 因 此 ， 我 们 可 以 在 cv 参数 中 (这 就 是 cv 出 现在 GridasearchcV 里 的 原因 ) 把 
shuffleSplit 实 例 传递 进去 。 


这 里 唯一 缺少 的 东西 惑 是 定义 GridaqsearchcvV 该 如 何 选择 最 优 评 估算 需 。 这 可 以 通过 为 
score_func 参 数 提供 一 个 目标 评分 孔 数 ( 令 人 感到 意外 ! ) 来 达到 。 我 们 可 以 目 己 写 一 个 ， 也 
可 以 从 sklearn.metrics 包 中 找 一 个 。 当 人 然 , 我 们 不 能 使 用 metric.accuracy， 因为 我 们 的 样 
本 类 别 是 不 均衡 的 (包含 情感 的 推 文 比 中 性 的 推 文 少 得 多 )。 相 反 ， 我 们 希望 在 两 个 类 别 上 都 得 
到 很 好 的 准确 率 和 召回 率 : 包含 情感 的 推 文 和 没有 正面 或 负面 意见 的 推 文 。 一 个 将 准确 率 和 召回 
有 又 结合 起 来 的 评估 标准 叫做 FE-measure 标 准 。 它 由 metrics 。 f1_ score 实现 . 


_ 2x 准确 率 x 召回 率 
准确 率 + 石 加 素 


把 所 有 东西 放 在 一 起 ， 就 得 到 了 如 下 代码 : 


from sklearn.grid search import GridSearchCV 




















F 





from sklearn.metrics import fl1 score 
def grid search model (clf factory, X, Y): 
cv = ShuffleSplit!( 


n=len(X), n iter=10, test size=0.3, indices=True, random state=0) 


param grid = dict(vect ngram range=[(1, 1), (1, 2), (1, 3)], 
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vect min df=[1, 2], 

vect _stop words=[None, "english"], 

vect _ smooth idf=[False, Truel], 

vect use idf=[False, Truel], 

Vect_ sublinear tf=[False, Truel], 

vect binary=[False, Truel], 

clf _ alpha=[0, 0.01, 0.05, 0.1, 0.5, 1], 
) 


grid search = GridSearchCV (clf factory(), 
param grid=param grid, 
CV=CV， 
score_ func=f1 Score， 
verbose=10) 

grid search.fit(xXx, Y) 


return grid search.best estimator 
在 执行 下 列 代码 的 时 候 我 们 需要 有 一 点 耐心 : 


clf = grid search model (create ngram model, XxX, Y) 
print cilf 


这 是 因为 我 们 是 在 3 x 2 x 2 x 2 x2x2x2x6=1152 的 参数 组 合 中 进行 参数 搜索 一 一 每 一 个 都 
要 在 10 折 数据 上 进行 训练 : 6 


waiting some hours 
Pipeline (clf=MultinomialNB( 





alpha=0.01, class weight=None, 
fit prior=True), 

clf_ alpha=0.01, 

clf class weight=None, 

clf fit prior=True, 

vect=TfidfVectorizer ( 
analyzer=word, binary=False, 

charset=utf-8, charset error=strict, 

dtype=<type 'long'>, input=content, 
lowercase=True, max df=1.0, 
max_ features=None, max n=None, 
min df=1, min n=None, ngram range=(1, 2), 
norm=12, preprocessor=None, smooth idf=False, 
stop_ words=None, strip_accents=None, 
sublinear_ tf=True, token pattern=(?u) \b\w\w+\b, 
token processor=None, tokenizer=None, 
use_idf=False, vocabulary=None), 

vect analyzer=word, vect binary=False, 

vect__charset=utf-8, 

vect _charset error=strict, 

vect dtype=<type 'long'>, 

vect input=content, vect lowercase=True, 

Vect max df=1.0, vect max features=None, 

vect max n=None, vect min df=1, 

vect min n=None, vect ngram range=(1, 2), 
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vect norm=12, vect preprocessor=None, 
Vect smooth idf=False, vect stop words=None, 
Vect _strip accents=None, vect sublinear tf=True, 
vect_ token pattern=(?u) \b\w\w+\b, 
Vect_ token processor=None, vect tokenizer=None, 
vect use idf=False, vect vocabulary=None) 

0.795 0.007 0.702 0.028 


采用 之 前 的 设置 ， 最 优 估算 器 确实 将 P/R AUC 提 升 了 将 近 3.3%， 达 到 70.2%。 


如 于 我 们 用 刚 发 现 的 参数 来 配置 癌 量 化 处 理 带 和 分 类 融 ， 那 么 “正面 情感 的 推 文 vs. 余 下 的 
推 文 ”和 “负面 情感 的 推 文 vs. 余下 的 推 文 ”的 结果 将 会 提升 : 


== Pos VS. rest == 


0.883 0.005 0.520 0.028 
== Neg vs. rest == 
0.888 0.009 0.631 0.031 


确实 ，P/R 曲 线 看 起 来 好 了 很 多 ( 注意 这 些 图 来 自 于 中 间 的 某 一 折 分 类 作 ， 所 以 AUC 值 有 一 
些微 小 的 仿 离 ): 








P/R curve (AUC=0.52) / pos vs rest 了 P/R curve (AUC=0.64) / Neg vs rest 





Precision 


CS 
. 品 
.多 
OO 
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bd 
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Recall Recall 


然而 ， 我 们 可 能 依然 不 会 使 用 这 些 分 类 带 。 是 时 候 答 试 一 些 完 全 不 同 的 东西 了 ! 





6.5 ”清洗 推 文 


新 的 限制 会 产生 新 的 形式 。 毫 无 例外 ， 推 符 就 属于 这 一 种 。 因 为 文本 必须 合乎 140 个 字符 的 
限制 ， 人 们 上 自然 就 开发 出 了 新 的 语言 简写 形式 ， 用 更 少 的 字符 来 说 同样 的 事情 。 但 到 目前 为 止 ， 
我 们 忽略 了 这 些 多 种 多 样 的 表情 和 缩写 。 让 我 们 看 看 如 果 把 这 些 也 考虑 进去 的 话 , 将 会 市 来 多 少 
提升 。 对 此 ， 我 们 将 会 为 Tfiqfvectorizer 提 供 自 己 定制 的 preprocessor () 。 
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首先, 我 们 在 一 个 字典 中 定义 了 一 系列 常用 表情 和 它们 的 蔡 代 词语 。 尽管 可 以 找到 更 多 的 督 
代词 语 ， 但 我 们 只 采用 那些 明显 市 有 正面 或 负面 情怀 的 词语 来 帮助 分 类 带 : 





emo_ repl = { 
# 正面 情感 的 表情 
"Elt;3": " good ", 
":Q": " good "，# 小 写 的 :D 
"dd": " good "，# 小 写 的 :DD 
"8)": " good ",， 
"GC)": " good ",， 
":)": " good ",， 
";)": " good ",， 
"(-:": " good ", 
Ts Vgoo0d ™; 


# 负面 情感 的 表情 


pe a 
":&ot;": " sad ",， 
To js Sad 
rg (re ad 
etre 
roory pad 1 


1 -一 G" 。 册 bad 1 
6 


# 确保 :dd 在 :d 之 前 被 蔡 代 
emo_ repl order = [k for (k_ len,k) in reversed(sorted([(len(k),k) for k in 
emo_repl.keys()]))] 


然后 ， 我 们 用 正则 表达 式 及 其 扩展 (\b 标 记 出 词语 边界 ) 来 定义 那些 缩写 形式 : 


re repl = { 
r"\br\b": "are", 
人 \bu\b" 。 "you 1 ; 


r"\bhaha\b": "ha", 
r"\bhahaha\b": "ha", 
r"\bdon't\b": "do not", 


r"\bdoesn't\b": "does not", 
r"\bdidn't\b": "did not", 
r"\bhasn't\b": "has not", 
r"\bhaven't\b": "have not", 
r"\bhadn't\b": "had not", 
r"\bwon't\b": "will not", 
r"\bwouldn't\b": "would not", 
r"\bcan't\b": "can not", 
r"\bcannot\b": "can not", 

} 


def create ngram model (params=None): 
def preprocessor (tweet): 
global emoticons replaced 
tweet = tweet.lower() 
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# 返 回 tweet .lower () 
for k in emo_ repl_ order: 

tweet = tweet.replace(k, emo_ repl[kl]) 
for r, repl in re repl.iteritems(): 

tweet = re.sub(r, repl, tweet) 


return tweet 


tfidf ngrams = TfidfVectorizer (preprocessor=preprocessor., 
analyzer="word") 


# .. 


当然 , 还 有 更 多 的 缩写 可 以 在 这 里 使 用 。 但 台 是 使 用 这 个 有 限 的 集合 ,我 们 已 经 在 “有 情感 
的 推 文 vs. 无 半点 情感 的 推 文 ”的 分 类 中 得 到 了 歼 朱 提升， 达到 了 70.7%: 








== POS VS. neg == 


0.804 0.022 0.886 0.011 

== Pos/neg vs. irrelevant/neutral == 
0.797 0.009 0.707 0.029 

== POS VS. rest == 

0.884 0.005 0.527 0.025 

== Neg VS。 rest == 

0.886 0.011 0.640 0.032 


6.6 将 词语 类 型 考虑 进去 


到 目前 为 止 , 我 们 希望 的 是 简单 使 用 相互 独立 的 词语 , 使 词 袋 方法 可 以 使 用 。 然而， 从 我 们 
的 下 党 上 来 看 , 中 性 推 文中 可 能 包含 更 大 比例 的 名 词 ， 而 正面 或 者 负面 情感 的 推 文 则 更 加 丰 宇 多 
彩 ， 需 要 更 多 的 形容 词 和 动词 。 如 采 我 们 能 利用 推 文中 的 语言 信息 , 效 末 将 会 如 何 呢 ? 如 采 能 友 
现 一 个 推 文 中 有 多 少 词 博 是 名 词 、 动 词 、 形 容 词 等 ,那么 分 类 带 也 可 以 在 分 类 时 把 这 些 信息 利用 
起 来 。 























6.6.1 确定 词语 的 类 型 


确定 词语 类 型 是 词性 标注 ( Part Of Speech tagging，POS 标 注 ) 所 要 做 的 。 词 性 标注 侣 会 对 
整 句 进 行 解析 ， 目标 是 把 它 重 新 排列 成 一 个 依赖 树 的 形式 。 树 中 的 每 个 市 点 对 应 一 个 词语 ， 而 父 
子 关 系 人 确定 了 这 个 词 是 依赖 谁 的 。 有 了 这 个 树 ， 就 可 以 做 出 更 明 乔 的 决策 ,例如 词语 “book” 是 
一 个 名 词 (“This is a good book”) 还 是 一 个 动词 (“Could you please book the flight?”)。 


你 可 能 已 经 猜 到 ，NLIK 在 这 里 也 会 扮演 一 个 角色 。 确 实 ， 它 包含 了 各 种 解析 硕 和 标注 山 。 
我 们 将 要 使 用 的 POS 标 注册 nltk.pos_tag() ， 其 实 是 一 个 成 熟 的 分 类 硕 。 它 是 通过 Pennn 
Treebank Project ( http:/www.cis.upenn.edu/~treebank ) 中 的 人 工 标注 句子 训练 出 来 的 。 它 将 一 列 
切 分 后 的 词语 作为 输入 ， 输 出 一 列 元 组 ， 其 中 每 个 元 素 包 含 部 分 原始 句子 以 及 它们 的 词性 标签 : 
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>>> import nltk 
>>> nltk.pos tag (nltk.word tokenize("This is a good book.")) 


[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('good', 'JJ'), ('book', 
'NN'), ('.', '.')] 

>>> nltk.pos_ tag (nltk.word tokenize("Could you please book the 
flight?")) 

[('Could', 'MD'), ('you', 'PRP'), ('please', 'VB'), ('book', 'NN'),, 
('the', 'DT'), ('flight', 'NN'), ('?', '.')] 


这 些 POS 标 签 缩写 来 和 目 于 Penn Treebank Project〈 改 编目 http:/americannationalcorpus.org/ 
OANC/penn.html )。 














POS 标 签 描述 例 子 
cc 并 列 连词 or 
CD 基数 词 2 second 
DT 限定 词 the 
EX 存在 there there are 
FW 外 来 词 kindergarten 
IN 介词 /从 属 连 词 On、 of、 like 
JU 形容 词 Cool 
JoR 形容 词 ， 比 较 级 形式 cooler 
ous 形容 词 ， 最 高 级 形式 coolest 
LS 列表 标记 1) 
MD 情态 动词 could、 will 
NN 名 词 ， 单 数 或 质量 book 
NNS 名 词 复 数 books 
NNP 专 有 和 名词， 单数 Sean 
NNPS 专 有 和 名词， 复数 Vikings 
PDT 前 置 限定 词 both the boys 
POS 所 有 格 结束 词 friend's 
PRP 人 称 代 词 TS TE 
PRPS 所 有 格 代 词 my、 his 
RB 副词 However、 usually、 naturally、 here、 good 
ROR 副词 ， 比 较 级 形式 better 
RBS 副词 ， 最 高 级 形式 bes 
RP 助词 give up 
TO to to go、 to him 
UH 感叹 词 uhhuhhuhh 
vB 动词 ， 基 本 形式 take 
VBD 动词 ， 过 去 时 took 
VBG 动词 ， 动 名 词 / 进 行 时 taking 





VBN 动词 ， 过 去 分 词 taken 


( 续 ) 
POS 标 签 描 ” 述 例 子 

VEE 动词 ， 单 数 ， 现 在 时 ， 非 3D take 

VBZ 动词 , 第 三 人 称 单数 , 现在 时 takes 

WDT 疑问 限定 词 which 

We 疑问 代词 who、 what 

WPS 所 有 格 疑 问 代词 whose 

MEE 疑问 副词 where、when 








有 了 这 些 ， 从 pos_tag () 的 输出 中 过 滤 出 预期 的 标签 就 会 非常 容易 。 我 们 倘 单 地 统计 一 下 
词语 个 数 即 可 。 在 这 些 词语 的 标签 中 ， 名 词 是 以 NN 开 涉 的 ， 动 词 是 以 VB 开头 的 ， 形 容 词 是 以 JJ 
开头 的 ， 而 副词 是 以 RB 开头 的 。 





6.6.2 ”用 SentiWordNet 成 功 地 作 梁 


我 们 之 前 讨论 的 语言 信息 很 可 能 对 我 们 有 所 帮助 , 但 同时 还 有 一 些 更 好 的 东西 , 我 们 可 以 从 
中 有 所 收获 : SentiWordNet ( http://sentiwordnet.isti.cnr.it )。 人 简单 来 说 ， 它 是 一 个 13 MB 的 文件 ， 
赋 子 了 大 部 分 瑞 文 单词 一 个 正 同 分 值 和 一 个 负 回 分 值 。 在 一 些 更 复杂 的 单词 中 , 对 它 的 每 一 个 同 
义 词 集合 都 记录 了 正面 情感 和 人 负面 情感 的 分 值 。 下 面 是 一 些 例子 : 














PosScore NegScore SynsetTerms 洋 细 说 阴 
( 正 向 分 值 ) 〔( 负 向 分 值 》 (同义词 ) Er 
a 03311354 0 .25 0 .125 studious#1 Marked by care and effort; “made 
a studious attempt to fix the 
television set” 
a QV0311663 0 0.5 careless#1 Marked by lack of attention or 
consideration or forethought or 
thoroughness; not careful 


POS (词性 ) ID 


n 03563710 0 0 implant#1 A prosthesis placed permanently 
in tissue 
V 00362128 0 0 kink#2 Form a curl, curve, or kink: “the 
curve#5 cigar smoke curled up at the 
Curl#1 celling” 


通过 词性 (POS ) 这 列 中 的 信息 , 我们 可 以 区 分 出 名 词 的 “book” 和 动词 的 “book”。PosScore 
和 NegScore 一 起 可 以 帮助 我 们 确定 词语 的 中 性 程度 5 它 等 于 1 - PoSsScore - NegSCore,。 
SynsetTerms 询 出 了 同义词 集合 。ID 和 Description 则 可 以 忽略 。 


同义词 集合 元 系 的 后 面 都 跟着 一 个 数字 ， 因 为 这 些 词语 会 在 不 同 的 同义词 集合 中 出 现 多 次 。 
例如 , “fantasize” 包 含 了 两 个 完全 不 同 的 含义 ， 这 也 导致 了 不 同 的 分 值 : 
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、 PosScore NegScore SynsetTerms pik 
己 小 
POS( 词 性 ”ID (下 向 分 值 ) ( 负 向 分 值 ) (同义词 ) ee 
V 01636859 0.375 0 fantasize#2 Portray in the mind; “he is 
fantasise#2 fantasizing the ideal wife” 
V 01637368 0 0.125 fantasy#1 Indulge in fantasies; “he is 
fantasize#1 fantasizing when he says that 
a he plans to start his own 
company” 
要 弄 明白 应 该 使 用 哪些 同义词 , 我 们 需要 真正 理解 推 文 的 意思 , 这 已 经 超出 本 草 所 要 讨论 的 


汇 围 。 专 注 于 解决 这 个 难题 的 人 研究 领域 叫做 词义 消 歧 ( word sense disambiguation )。 现 在 ， 我 们 








只 需要 采取 比较 容易 的 方式 即 可 : 人 徐 单 地 对 所 有 同义词 的 分 数 求 平均 值 。 对 于 “fantasize ”， 


PosScore 是 0 . 工 875， NegScore 是 0 .0625。 


下 面 这 个 了 涵 数 lo0agd_sent_word_net () 把 这 些 都 做 好 了 ， 并 返回 到 了 一 





是 “word type/word” 形 式 的 字符 串 ， 例 如 “n/implant”， Www 


import csv, collections 
def load_ sent _ word net(): 


sent scores = collections.defaultdict (1ist) 


with open(os.path.join (DATA DIR, 


SentiWordNet 3.0.0 20130122.txt"), "r") as csvfile: 
reader = csv.reader (csvfile, delimiter='\t', 
quotechar='"') 


for line in reader: 
if line[0] .startswith("#"): 
continue 
if len(line)== 


continue 
POS, ID, PosScore,NegScore, SynsetTerms,Gloss = line 
if len(POS)==0 or len (ID)== 

continue 


# 打 印 出 POS ， PosScore, NegScore, SynsetTerms 
for term in SynsetTerms.split(" "): 


# 扔 掉 每 个 词语 后 面 的 数字 


term = term.split("# a 
term = term.replace("-", " ").replace("™ ", "™ ") 
key = "%s/%s"% (POS,term.split("#")[0]) 


sent_scores[key] .append( (float (PosScore) ， 
float (NegScore))) 
for key, value in sent_ scores.iteritems(): 
Sent_ Scores [Key] = np.mean (value, axis=0) 


return sent scores 
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6.6.3 我们 第 一 个 估算 器 
现在 ， 创建 第 一 个 估算 髓 的 准备 工作 都 做 好 了 。 最 方便 的 实现 方式 就 是 继承 目 BaseEstimator 
类 。 它 要 求 我 们 运用 以 下 3 种 方法 。 





口 get_feature names() 这 个 返回 一 个 特征 字符 串 列 表 ， 它 包含 用 transform() 返 回 





的 所 有 特征 。 
口 fit (document，y=None) 由 于 我 们 并 不 是 实现 分 类 和 侣 ， 所 以 可 以 忽略 这 个 ， 人 简单 返 
回 se1Lf 即 可 。 


口 transform(documents) 这 个 将 返回 numpy.array() ， 它 包含 了 一 个 大 小 数组 
( len (documents) ,; len(get_ feature names,) )。 这 意味 着 ， 对 documents 中 的 每 
个 文档 ， 它 会 为 每 一 个 特征 名 (在 get_feature_names () 中 ) 返回 一 个 值 。 








现在 来 运用 这 些 方法 : 
sent word net = load sent word net() 


class LinguisticVectorizer (BaseEstimator): 
def get feature names (self): 


return np.array (['sent neut', 'sent pos', 'sent neg', 
'nouns', 'adjectives', 'verbs', 'adverbs', 
'allcaps', 'exclamation', 'question', 'hashtag', 
'mentioning']) 


# 我 们 并 不 进行 拟 合 ， 但 需要 返回 一 个 引用 

# 以 便 可 以 按照 fit(d) .transform(d) 的 方式 使 用 

def fit(self, documents, y=None): 
return self 


def get sentiments (self, d): 


sent = tuple(d.split()) 
tagged = nltk.pos_ tag (sent) 


[ 
[ 


pos_vals 
neg_vals 


nouns = 0. 

adjectives = 0. 

verbs = 0. 

adverbs = 0. 

for w,t in tagged: 
pP, n= 0,0 


sent_pos_type = None 

if t.startswith("NN"): 
sent_pos_type = "n" 
nouns += 1 

elif t.startswith("JJ"): 
sent_pos_type = "a" 
adjectives += 1 

elif t.startswith("VB"): 
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sent_pos_type = "Vv" 
verbs += 1 

elif t.startswith("RB"): 
sent_pos_type = "rr" 
adverbs += 1 


if sent pos_ type is not None: 
sent word = "%s/%s"%$(sent pos_ type, w) 


if sent word in sent word net: 
p,n = sent_ word net[sent wordl 


pos_vals.append (p) 
neg_vals.append (n) 


1] = len(sent) 
avg_pos val = np.mean (pos_ vals,) 
avg_neg_ val = np.mean (neg_ vals) 


return [1-avgq pos _ val-avg_ neg val, 
avg_pos_ val, avg_neg_ val, 
nouns/l1, adjectives/l1, verbs/l1, adverbs/1] 


def transform(self, documents): 
obj_val, pos_ val, neg_val, nouns, adjectives, \ 
verbs, adverbs = np.array ([self. get sentiments(d) \ 
for d in documents]).T 





allcaps = [|] 
exclamation 
question = [| 
hashtag = [|] 
mentioning = [] 
for d in documents: 

allcaps.append (np.sum([t.isupper() \ 

for t in d.split() if len(t)>2])) 


exclamation.append(d.count("!")) 
question.append(d.count("?")) 
hashtag.append(d.count("#")) 
mentioning.append(d.count ("@")) 


result = np.array ([ob]j_val, pos_ val, neg_val, 
nouns, adjectives, verbs, adverbs, 
allcaps, exclamation, question, 
hashtag, mentioning]).T 


return result 


6.6.4 把 所 有 东西 融合 在 一 起 


然而 ， 如 果 不 考 虑 词语 本 身 ,， 独立 使 用 语言 特征 并 不 会 让 我 们 走 得 太 远 。 因 此 ,我 们 需要 把 
TfidqfVvectorizer 和 话 言 特征 结合 起 来 。 这 可 以 用 Scikit-learn 的 FeatureUnion 类 得 到 。 它 的 初 


始 化 方式 跟 Pipiline 一 样 ， 但 与 顺序 执行 的 合算 融 的 效 末 衡量 方式 〈 在 每 一 轮 中 将 前 一 次 的 输 
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出 传递 给 下 一 轮 ) 不 同 ，FeatureUnion 会 并 行 处 理 ， 人 然后 把 输出 的 癌 量 融合 在 一 起 : 


def create union model (params=None): 
def preprocessor (tweet): 
tweet = tweet.lower() 


for k in emo_ repl_ order: 


tweet = tweet.replace(k, emo_ repl[kl]) 
for r, repl in re repl.iteritems(): 
tweet = re.sub(r, repl, tweet) 


return tweet.replace("—-", " 


En .replace("_", 1 n 


tfidf ngrams = TfidfVectorizer (preprocessor=preprocessor., 


analyzer="word") 


ling_stats = LinguisticVectorizer() 


all features = FeatureUnion([('l1ing', 
tfidf ngrams)]) 


clf = MultinomialNB( 


('tfidf', 


) 
pipeline = Pipeline([('all', all features), ('clf', clf)]) 


1if params: 
pipeline.set params (**params) 


return pipeline 








在 融合 后 的 特征 处 理 带 上 进行 训练 和 测试 ， 在 “正面 情感 vs. 负面 情 


额外 的 0.6% 的 提升 。 


== POS VS. neg == 


0.808 0.016 0.892 0.010 

== Pos/neg vs. irrelevant/neutral == 
0.794 0.009 0.707 0.033 

== POS VS. rest == 

0.886 0.006 0.533 0.026 

== Neg VS。 rest == 

0.881 0.012 0.629 0.037 





感 ” 的 分 类 中 可 以 得 到 


看 到 这 些 结 有 末 ， 我 们 可 能 不 会 再 使 用 “负面 情感 推 文 vs. 余 下 的 推 文 ”和 “正面 情感 推 文 vs, 


余下 的 推 文 ”的 分 类 需 了 。 相 反 ， 我 们 会 先 用 分 类 





信人 确定 推 文中 是 否 包含 情感 ( 正 同 / 仙 问 vs. 无 


关 / 中 性 )。 然后， 如 果 包 含 的 话 ， 青 使 用 “ 正 向 情感 vs. 负 向 情感 ”的 分 类 带 来 确定 实际 的 情感 。 


6.7 小结 





茶 喜 你 ， 和 我 们 一 起 坚持 到 了 最 后 ! 我 们 了 解 了 朴 系 贝 叶 斯 是 如 何 工作 的 , 以 及 它 为 何 并 不 
是 那么 朴素 。 针 对 没有 足够 数据 去 等 习 类 别 概率 空间 中 所 有 位 置 的 训练 集合 ,， 朴 系 贝 叶 斯 的 泛 化 
能 力 非 笛 出 色 。 我 们 知道 了 如 何 把 它 应 用 到 推 文 上 ， 而 且 它 对 清洗 粗糙 的 推 文 文本 很 有 带 助 。 最 
后 ， 在 体验 JSentiWordNet 之 后 ， 我 们 发 现 “ 作 一 点 束 ” 也 是 可 以 的 〈 在 进行 了 不 少 工作 之 后 )， 











特别 是 当 它 能 对 分 类 融 的 效 末 有 额外 提升 的 时 候 。 





回归 : 推 存 














关于 回归 的 知识 , 你 可 能 已 经 在 高 等 学 校 的 数学 课 上 学 过 了 。 在 那里 它 叫 做 普通 最 小 二 来 法 
( Ordinary Least Squares，OLS ) 回归 。 这 个 源 晶 20 世纪 的 古老 技术 运行 速度 很 快 ， 并 有 旦 可 以 有 效 
地 解决 很 多 真实 问题 。 本 章 ， 我 们 将 从 回顾 OLS 回 归 开 始 ， 告 诉 你 如 何在 NumPy 和 Scikit-learn 里 
使 用 它们 。 


在 各 种 现代 应 用 中 , 我 们 碰 到 了 许多 经 典 方法 的 局 限 , 并 开始 从 一 些 高 级 方法 中 受益 ; 你 将 
在 本 草 里 看 到 这 些 。 当 我 们 要 考虑 很 多 特征 的 时 候 更 是 如 此 , 包括 特征 个 数 超过 样本 个 数 的 情况 
( 这 是 普通 最 小 二 乘法 所 不 能 正确 处理 的 情况 )。 这 些 技术 非常 先进 , 是 近 10 年 发 展 起 来 的 ,包括 
lasso 法 、 岭 (ridge ) 回归 和 弹性 网 络 (elastic net ) 等 。 我 们 之 后 将 会 深入 介绍 。 


最 后 ,我 们 来 研究 一 下 推 存 。 它 在 很 多 应 用 里 神 是 一 个 重要 的 领域 ,为 很 多 应 用 审 来 了 显 者 
的 附加 价值 。 我 们 将 从 这 个 诛 题 开始 探索 ， 并 在 下 一 章 里 看 到 更 多 细 太 。 














7.1 用 回归 预测 房价 

让 我 们 从 一 个 简单 的 问题 开始 一 一 预测 波士顿 的 房价 。 

我 们 使 用 的 是 一 个 公开 的 数据 集 。 它 涉及 一 些 人 口 统计 信息 和 地 理 属性 , 例如 犯罪 率 或 师 生 
比例 。 我 们 的 目标 是 预测 特定 区 域内 的 房价 均值 。 和 以 往 一 样 ， 我 们 有 一 些 训练 数据 ， 其 中 答案 
是 已 知 的 。 

我 们 使 用 Scikit-learn 里 的 因数 来 读 取 数 据 。 这 个 数据 集 是 Scikit-learn 的 一 个 内 置 数据 集 ， 所 
以 读 取 非常 容易 : 


from sklearn.datasets import load boston 
boston = load poston ( ) 


boston 对 象 是 一 个 合成 对 象 ， 它 包含 有 和 在 二 属性。 我们 对 其 中 的 boston.data 和 


boston.target 比较 感 兴 
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我 们 将 从 一 维 回归 开始 , 尝试 根据 平均 住 答 房 间 数 这 个 属性 来 对 价格 进行 回归 。 这 个 数据 存 
储 在 位 置 5 ( 你 可 以 查询 boston .DESCR 和 boston . feature name s 获 得 数据 的 详细 信息 ): 


from matplotlib import pyplot as plt 
plt.scatter (boston.datal[:,5], boston.target, color='r') 


boston. target 属 性 里 包含 有 房屋 的 平均 价格 ( 我 们 的 目标 变量 )。 我 们 可 以 使 用 标准 最 小 
一 乘 回归 ， 你 第 一 次 见 到 它 可 能 是 在 高 等 学 校 里 。 











import numpy as np 


我 们 引 人 NumPy， 这 是 我 们 所 需要 的 基础 程序 包 。 我 们 将 会 使 用 np .1inalg 子 模块 中 的 也 
数 ， 来 进行 基础 线性 代数 操作 : 


boston.datal[l:,5] 
np.array([[v] for Vv in x]) 


这 看 起 来 有 些 奇 怪 , 但 我 们 希望 x 是 二 维 的 : 第 一 维 是 不 同 的 样本 ， 第 二 维 是 属性 。 在 我 们 
的 例子 中 ， 我 们 只 有 一 个 属性 : 平均 住 答 房 间 数 ， 所 以 第 二 维 就 是 1。 


y = boston.target 
slope,_, = np.linalg.lstsqa (x,y) 





Xx 


Xx 





最 后 ， 我 们 用 最 小 二 乘 回归 得 到 回归 的 斜率 。np.1Linalg.1stsg 图 数 还 返回 了 一 些 关 于 数 
据 拟 合 程度 的 内 部 信息 ， 我 们 此 时 先 忽 略 这 些 。 








W 
U 
二 
GQ. 
UW 
Un 
OO 
本 





前 图 显示 了 所 有 的 数据 ( 点 )， 以 及 我 们 的 拟 合 ( 实 线 )。 它 看 起 来 并 不 是 太 好 。 事 实 上 , 采 
用 这 个 一 维 的 模型 ， 是 因为 我 们 知道 房屋 价格 (House Price ) 一 定 是 RM 变量 (房屋 的 数目 ) 
的 倍数 。 
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这 意味 着 ,一 套 两 居室 的 平均 价格 是 一 居室 价格 的 两 倍 , 而 三 居室 价格 将 会 是 一 居室 的 三 倍 。 
我 们 知道 这 是 一 个 错误 的 假设 ( 其 至 连 近 似 真 实 都 算 不 上 )。 

一 个 比较 通用 的 方法 是 在 前 面 这 个 式 子 中 加 入 偏 移 项 ， 使 得 价格 等 于 RM 的 倍数 再 加 上 一 个 
偏 移 。 可 以 把 这 个 偏 移 量 看 做 一 个 零 居 室 房 子 的 基础 价格 。 实 现 这 个 方法 的 技巧 ， 就 是 在 x 的 每 
个 元 素 上 面 加 1。 

















boston.datal[l:,5] 

np.array([[v,1] for Vv in x]) # 我 们 使 用 [VvV,1] 而 不 是 [Vv] 
y = boston.target 

(slope,bias),_,_,_ = np.linalg.lstsqg(x,y) 


在 下 图 中 , 我 们 看 到 , 拟 合 的 曲线 在 视觉 上 看 起 来 好 多 了 (尽管 一 小 部 分 离 群 点 可 能 会 对 结 
果 造 成 一 些 不 成 比例 的 影响 )。 


XxX 


Xx 
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在 理想 情况 下 , 我 们 和 希望 量化 衡量 曲线 拟 合 的 效 朱 。 要 实现 这 个 目标 , 我 们 需要 看 看 预测 值 
和 真实 值 之 间 的 接近 程度 。 为 此 ， 我 们 看 一 人 np.1inalg.1stsqg 六 数 返 回 值 中 的 第 2 项 





(slope,bias),total error,_ , = np.linalg.lstsq(x,y) 
rmse = np.sqrt (total error[0]/len (x)) 


np.1inal.1stsq 图 数 返 回 了 总 体 平 方 误差 。 对 每 一 个 数据 元 系 , 它 都 会 计算 误 老 (〈 拟 合 的 
线 和 真实 值 之 间 的 差距 )， 并 进行 平方 ， 然 后 返回 所 有 平方 误 郑 的 总 和 。 由 于 衡量 平均 误差 更 易 
于 理解 , 所 以 我 们 把 它 除 以 数据 的 个 数 。 最 后 ,我 们 计算 平方 根 , 并 打印 出 均 方 根 误差 (Root Mean 
Squared Error，RMSE )。 对 最 初 这 个 无 作 移 的 回归 ， 我 们 得 到 了 7.6 的 误差 ， 而 如 果 加 上 仿 移 项 ， 
将 会 提升 至 6.6。 这 表明 ， 我 们 可 以 预期 的 价格 和 真实 价格 之 间 最 多 相差 13 000 美 元 。 
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均 方 根 误差 和 预测 


-> 均 方 根 误差 与 标准 差 ， 是 近似 相对 应 的 。 由 于 大 多 数 数据 与 它 的 均值 之 间 
的 偏 移 量 最 多 是 两 个 标准 差 ， 所 以 我 们 可 以 将 RMSE 乘 以 2， 得 到 一 个 较为 粗略 
的 置信 区 间 。 这 只 有 在 误差 是 正 态 分 布 的 情况 下 才 完 全 成 立 ， 但 即使 是 非 正 态 
分 布 ， 也 可 以 认为 这 是 近似 正确 的 。 


7.1.1 多 维 回 归 


到 目前 为 止 , 只 有 一 个 变量 参与 了 预测 , 那 就 是 每 套房 于 的 房间 数 。 我 们 现在 将 要 使 用 多 维 
回归 来 对 所 有 数据 进行 模型 拟 合 ， 演 试 基于 多 个 输入 来 预测 一 个 输出 (平均 房价 )。 


代码 看 起 来 和 之 前 的 很 像 : 


x = boston.data 
# 我 们 仍然 要 添加 一 个 偏 移 项 ， 但 现在 必须 使 用 np .concatenate 
# 它 会 将 两 个 数组 /列表 合并 起 来 ， 因 为 我 们 
# 在 v 里 面 有 几 个 输入 变量 


np.array ([np.concatenatel(v,[1]) for 1n boston.datal) 














y = boston.target 
s,total error,_ , = np.linalg.lstsqa (x,y) 








现在 ， 均 方 根 误差 只 有 4.7 了 1 这 比 以 前 好 了 很 多 ,说明 额外 的 变量 确实 有 所 带 助 。 遗 憾 的 
征 ， 结 朱 不 太 容 易 展 示 出 来 ， 因 为 这 是 一 个 14 维 的 回归 。 


3 


7 . 


mm 


.2 ”回归 里 的 交叉 验证 


记得 在 初次 介绍 分 类 的 时 候 , 我 们 强调 了 交叉 验证 对 于 衡量 预测 质量 的 重要 性 .在 回归 里 面 ， 
我 们 不 会 一 直 这 么 做 。 事实 上 , 之 前 只 讨论 了 训练 误差 。 如 有 果 你 因此 就 满怀 信心 地 推断 模型 的 泛 
化 能 力 , 那 是 不 可 取 的 。 由 于 普通 最 小 二 乘法 是 一 个 非常 简单 的 模型 ， 它 通 笛 不 会 犯 很 严重 的 错 
误 (过 拟 合 程度 比较 轻 ) 然而 , 我 们 仍 需要 用 Scikit-learn 对 它 进 行 验证 。 我 们 还 将 使 用 线性 回归 
的 类 ， 因 为 在 本 鞋 后 面 它们 很 容易 被 瞧 换 成 更 高 级 的 方法 。 


from sklearn.linear model import LinearRegression 


LinearREgression 类 实现 OLS 回 腿 ， 如 下 : 

















lr = LinearRegression(fit intercept=True) 
我 们 将 fit_intercept 参 数 设 为 True， 用 来 加 入 偏 移 项 。 这 跟 我 们 以 前 做 的 一 样 , 但 用 了 
一 个 更 为 方便 的 接口 : 


lr.fit(x,yYy) 
p = map(lr.predict, x) 
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分 类 的 学 习 和 预测 过 程 如 下 所 示 : 


e = 卫 -Y 

total error = np.sum(e*e) # 平方 和 

rmse train = np.sgqrt(total error/len(p)) 
print('RMSE on training: {}'.format (rmse_ train)) 


我 们 在 计算 训练 集 均 方 根 误差 的 时 候 使 用 了 一 个 不 同 的 过 程 。 当 然 ， 结 果 和 之 前 是 一 样 的 ; 
4.6。( 进行 这 些 检查 是 有 益处 的 ， 可 以 确保 我 们 所 做 的 是 正确 的 。) 

现在 ,我们 将 使 用 KFolg 类 来 构建 一 个 10 折 交叉 验证 循环 ， 并 测试 线性 回归 的 泛 化 能 

from sklearn.cross_ validation import Kfold 


kf = KFold(len(x), n folds=10) 
err = 0 





for train,test in kf: 
lr.fit(x[train],yl[ltrainl]) 
p = map(lr.predict, xl[testl]) 
e = p-yltestl] 
err += np.SsSum(e*e) 
rmse_1l0cv = np.sqgqrt (err/len (x)) 
print('RMSE on 10-fold CV: {}'.format (rmse _ 10cv)) 


通过 交叉 验证 ， 我 们 得 到 了 一 个 保守 的 信 计 ( 这 是 说 ,实际 误差 要 更 大 ): 5.6。 在 这 个 例子 
里 ， 它 是 对 价格 预测 沁 化 能 力 的 一 个 更 好 的 估计 。 

普通 最 小 二 乘法 的 学 习 时 间 非 常 短 , 给 出 的 是 一 个 简单 模型 , 并 且 在 预测 阶段 非 第 迅速 。 由 
于 这 些 原因 , 这 个 模型 通常 会 是 在 回归 问题 中 所 使 用 的 第 一 个 模型 。 现 在 我 们 去 看 一 看 更 多 的 高 























7.2 惩罚 却 回 归 


在 OLS 回 归 的 各 种 变种 中 ， 比 较 重 要 的 当 属 惩罚 式 回 归 。 在 普通 回归 中 所 得 到 的 拟 合 是 训练 
数据 中 的 最 佳 拟 合 ， 这 会 导致 过 拟 合 。 惩 罚 的 意思 是 ， 如 果 模 型 对 参数 过 度 相 信 ， 我 们 就 对 它 增 
加 一 个 惩罚 项 。 











惩罚 式 回 归 是 一 种 折 中 
~ < 、 ~ 、 I 工 dy 、2 
惩罚 式 回 归 是 偏差 -方法 折 中 的 另 一 个 例子 。 在 使 用 惩罚 项 的 时 候 ， 由 于 增 
加 了 偏差 ， 我 们 会 得 到 一 个 训练 效果 差 一 些 的 拟 合 。 但 另 一 方面 ， 我 们 降低 了 
方差 ， 从 而 更 易于 避免 过 拟 合 。 因 此 ， 整 体 效果 可 以 泛 化 得 更 好 。 
7.2.1 L1 和 L2 惩罚 
有 两 种 类 型 的 征 罚 经 常用 于 回归 : Ll 惩罚 和 L2 惩 罚 。L1 惩 罚 的 意思 是 说 ， 我 们 通过 系数 的 
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绝对 值 之 和 对 回归 进行 惩罚 ， 而 L2 惩 罚 则 会 通过 平方 和 来 惩罚 。 
让 我 们 形式 化 地 探索 一 下 这 些 想法 。OLS 优 化 如 下 所 示 : 
b* = arg minz(y — X00)? 
在 前 面 这 个 公式 中 ， 我 们 要 寻找 向 量 bp， 使 得 到 目标 y 的 平方 距离 最 小 。 
当 加 入 LI 惩罚 项 的 时 候 ， 我 们 就 会 优化 下 面 这 个 式 子 : 
b* = arg minz(y — X06)? + AD, lbi 


这 里 想 要 同时 使 误差 变 小 ， 还 要 使 系数 ( 绝对 值 ) 变 小 。 用 L2 惩 神 项 ， 就 意味 痢 使 用 的 是 
下 面 这 个 式 子 : 








b* = arg Iii (of Xb)2 十 入 S00 


它们 之 间 的 区 别 相当 小 : 我 们 现在 通过 系数 的 平方 来 惩 玉 ， 而 不 是 绝对 值 。 然 而 ， 其 结果 的 
区 别 却 是 戏剧 性 的 。 


岭 (Ridge) 、Lasso 法 和 弹性 网 (Elastic net) 


MY 


a 这 些 惩罚 模型 通常 都 有 一 些 有 趣 的 名 字 。L1 惩 罚 模 型 通常 叫做 Lasso 法 ， 而 
12 惩 罚 模 型 叫做 岭 回 归 ( Ridge regression )。 当 然 ， 我 们 可 以 把 这 两 者 结合 起 来 ， 
就 得 到 了 弹性 网 ( Elastic net ) 模型 。 


Lasso 法 和 上 岭 回归 会 比 非 德 罚 回归 得 到 更 小 的 模型 系数 。 然而, Lasso 法 还 有 一 个 额外 的 性 质 ， 
那 就 是 它 会 使 更 多 的 系数 为 0! 这 就 是 说 ,最终 的 模型 甚至 不 会 使 用 一 些 输入 特征 ， 模 型 是 稀 玖 
的 。 这 通 间 是 一 个 非常 好 的 性 质 ， 因 为 模型 把 特征 选择 和 回归 在 同一 个 步 又 中 都 实现 了 。 


你 可 能 注意 到 了 ，, 无 论 我 们 何 时 加 入 惩罚 项 ， 都 会 加 一 个 权重 4 , 它 决 定 了 我 们 想 要 多 大 的 
惩罚 力度 。 当 接近 0 的 时 候 ,， 那 它 跟 OLS 非 常 相 近 (〈 事 实 上 ， 如 果 你 把 4 设 为 0， 就 相当 于 进行 
OLS )， 当 A 比较 大 的 时 候 ， 我 们 会 得 到 一 个 与 OLS 非 常 不 同 的 模型 。 

岭 模型 更 加 上 古老， 而 Lasso 却 很 难 用 于 人 工 计算 。 然 而 ， 使 用 现代 计算 机 ，Lasso 使 用 起 来 可 
以 像 岭 模型 一 样 容易 ,或 者 其 至 把 两 者 结合 在 一 起 形成 弹性 网 。 弹 性 网 有 两 个 惩罚 项 , 一 个 是 绝 
对 值 项 ， 男 一 个 是 平方 项 。 

















7.2.2 在 Scikit-learn 中 使 用 Lasso 或 弹性 网 
让 我 们 用 弹性 网 对 上 面 的 例子 进行 改造 。 使 用 Scikit-learn 很 容易 把 之 前 所 用 的 最 小 二 乘法 替 
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from sklearn.linear model import ElasticNet 
en = ElasticNet (fit intercept=True, alpha=0.5) 


现在 我 们 使 用 的 是 en， 而 之 前 用 的 是 1r。 这 是 唯一 需要 修改 的 地 方 。 结 果 正 如 我 们 所 预期 
的 那样 ， 训 练 误差 增加 至 5.0 ( 之 前 是 4.6 ), 但 交叉 验证 误差 却 降 至 5.4 (之 前 是 5.6 )。 训练 集 上 的 
误差 变 得 更 大 , 但 我 们 却 得 到 了 更 好 的 泛 化 能 力 。 我 们 还 可 以 在 同一 段 代码 中 使 用 Lasso 类 实现 
LI 惩罚 ， 或 者 用 Riage 类 实现 L2 惩 罚 。 

下 图 告诉 我 们 ， 当 从 非 惩罚 回归 ( 显示 为 虚线 ) 切换 到 Lasso 回 归 (更 接近 水 平 线 ) 的 时 候 


发 生 了 什么 。 然 而 ， 当 有 很 多 输入 变量 的 时 候 ，Lasso 回 归 的 收益 就 更 加 明显 。 下 面 仔细 考虑 一 
下 这 个 设置 : 
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7.3 尸 大 于 的 情形 


这 一 人 的 标题 用 的 是 行 话 ,， 现在 我 们 来 了 解 一 下 它 的 含义 。 从 20 世 纪 90 年 代 起 , 痛 先 是 在 生 
物 医学 领域 ,然后 是 在 互联 网 领域 ， 当 P 大 于 N 的 时 候 ， 就 会 出 现 一 些 问题 。 也 就 是 说 ， 特 征 个 
数 P 大 于 样本 个 数 N( 这 几 个 字母 是 这 些 概 念 的 弟 用 统计 学 速记 写法 )， 即 “PP 大 于 N” 问 题 。 


例如 ,如 来 你 的 输入 是 一 个 文本 集合 , 一 个 简单 方法 是 把 字典 中 每 一 个 可 能 的 词语 都 当做 一 
个 特征 , 然后 在 这 些 特征 上 进行 回归 (之 后 将 会 处 理 一 个 类 似 的 问题 ), 在 英语 中 , 一 共有 20 000 
多 个 词汇 ( 如 朵 进行 了 一 些 词 干 处 理 的 话 , 这 只 是 公共 词语 的 数目 ; 如 果 保 留 了 每 个 词语 的 词 形 ， 
那么 将 会 是 这 个 数目 的 10 倍 以 上 )。 如 果 只 有 几 百 或 几 千 个 样本 ,特征 个 数 束 超过 了 样本 个 数 。 
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在 这 种 情况 下 ， 由 于 特征 数 多 于 样本 数 ， 所 以 有 可 能 会 在 训练 数据 中 得 到 一 个 完美 的 拟 合 。 
这 人 是 一 个 数学 上 的 事实 : 当 你 正在 求解 一 组 等 式 ， 而 等 式 个 数 少 于 变量 个 数 时 , 那 你 就 可 以 找到 
一 组 训练 误差 为 0 的 回归 系数 。( 事实 上 你 可 以 得 到 更 多 的 完美 解 ， 无 限 多 。) 


然而 ,这 里 的 主要 问题 是 ，0 训 练 误差 并 不 意味 痢 你 的 模型 沁 化 得 好 。 事 实 上 ， 它 的 沁 化 能 
可 能 非常 差 。 鉴 于 之 前 的 正则 化 能 给 你 市 来 一 点 额外 的 提升 ， 现 在 丈 需 要 一 个 完全 有 意义 的 结果 。 














7.3.1 基于 文本 的 例子 


我 们 现在 转 癌 男 一 个 例子 , 它 来 目 于 卡 内 基 梅 隆 大 学 Noah Smith 教 授 的 研究 团队 所 进行 的 一 
项 研究 。 这 项 研究 是 基于 对 一 个 叫做 “10-K reports” 的 公司 文件 进行 挖掘 ， 这 份 文件 来 自 于 美 
证 券 交 易 委 员 会 ( Securities and Exchange Commission，SEC )。 对 所 有 公开 交易 的 公司 来 说 ， 这 
份 文件 都 具有 法 律 授权 。 我 们 的 目标 是 基于 这 份 公 开 信息 , 来 预测 公司 股票 未 来 的 波动 性 。 在 训 
练 数 据 中 ， 我 们 使 用 的 实际 上 是 历史 数据 ， 所 以 我 们 知道 跟 这 些 数 据 相 关 的 结 

这 里 一 共有 16 087 个 样本 。 每 个 特征 和 不 同 的 词语 相对 应 , 一 共 150 360 个 。 这 些 特征 已 经 都 
预 处 理 好 了 。 我 们 拥有 的 特征 比 样本 数 要 多 。 

这 个 数据 集 是 SVMLight 格 式 的 , 来 上 日 于 多 个 数据 源 , 包括 本 书 的 网 站 。Scikit-learn 能 够 谈 取 


这 个 格式 的 数据 。SVMLight， 顾 名 思 义 ， 是 一 个 文 持 回 量 机 的 实现 。 它 在 Scikit-learn 里 也 可 以 使 
用 。 不 过 现在 ， 我 们 只 对 它 的 数据 格式 感 兴趣 : 


























from sklearn.datasets import load svmlight file 
data,target = load svmlight file('E2006.train’') 


在 前 面 这 段 代 码 中 ，aqata 是 一 个 稀 玻 和 矩阵 ( 这 是 说 ， 和 矩阵 中 多 数 元 素 都 是 0， 因此 在 内 存 中 
只 保存 了 非 0 元 素 )， 而 target 是 一 个 一 维 向 量 。 我 们 可 以 看 看 target 的 一 些 属性 : 











('Min target value: {}'.format (target.min())) 

('Max target value: {}'.format (target.max())) 
print('Mean target value: {}'.format (target.mean())) 

('Std. dev. target: {}'.format (target.stqd()),) 


它 会 打印 出 如 下 数值 : 


Min target value: -7.89957807347 
Max target value: -0.51940952694 
Mean target value: -3.51405313669 
Std. dev. target: 0.632278353911 


我 们 可 以 看 到 数据 范围 在 -7.9 到 -0.5 之 间 。 既 然 有 了 评 佑 数据 ， 就 可 以 看 看 在 使 用 OLS 进 行 
预测 的 时 候 都 发 生 了 什么 。 注 意 ， 所 用 的 类 和 方法 与 之 前 完全 一 样 : 








from sklearn.linear model import LinearRegression 
lr = LinearRegression (fit intercept=True) 
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lr.fit(data,target) 

p np.array (map (lr.predict, data)) 

p p.ravel() # D 是 一 个 (1,16087) 的 数组 ， 我 们 想 要 使 它 扁平 化 
e = p-target # ee 是“ 误差”: 预测 值 和 真实 值 之 间 的 差距 
total_ sq error = mp.Sum(exe) 

rmse_ train = np.sqgqrt(total sq error/len(p)) 


print (rmse train) 
这 个 误差 并 不 是 正好 为 0, 这 是 由 于 含 人 有 误差 , 但 它 已 经 非常 接近 0 了 : 0.0025( 比 目 标 值 
的 标准 差 要 小 得 多 )。 


当 使 用 交叉 验证 (这 里 的 代码 跟 之 前 用 在 Boston 例 子 中 的 代码 非常 相似 ) 的 时 候 , 我 们 会 得 
到 很 不 一 样 的 结 末 : 0.78。 不 要 起 了 数据 的 标准 差 只 有 0.6。 就 是 说 如 琳 我 们 总 是 “预测 ”平均 值 
-3.5， 奢 得 到 的 均 方 根 误差 是 0.6! 所 以 , 里 然 在 训练 时 使 用 OLS 得 到 这 样 的 误差 无 足 重 轻 , 但 当 
我 们 进行 泛 化 的 时 候 ， 这 个 误 卷 就 太 大 了 ,这 个 预测 实际 上 是 有 害 的 : 每 次 人 简单 预测 平均 值 ， 不 
可 以 做 得 更 好 ( 就 均 方 根 误差 而 言 儿 。 














训练 误差 和 泛 化 误差 
AL 


ie 当 特 征 数目 多 于 样本 数目 的 时 候 ， 你 用 OLS 可 以 一 直 得 到 0 训练 误差 ， 但 这 
并 不 表示 你 的 模型 在 泛 化 中 可 以 做 得 很 好 。 事 实 上 ， 你 可 能 得 到 了 0 训练 误差 ， 
但 它 是 一 个 完全 没有 用 处 的 模型 。 








一 个 目 然 的 解决 方案 就 是 利用 正则 化 对 过 拟 合 施加 反作用 。 我 们 用 弹性 网 络 学 习 融 来 进行 
区 叉 验证 循环 ， 并 将 惩罚 参数 设置 为 1。 现 在 ， 我 们 得 到 了 0.4 的 RMSE。 这 比 “预测 均值 ”要 
好 。 在 实际 问题 中 ,我 们 很 难 知 道 是 否 已 经 尝试 了 所 有 可 能 的 方式 ， 因 为 要 做 到 完美 预测 几乎 
不 可 能 。 


7.3.2 巧妙 地 设置 起 参数 (hyperparameter) 


在 前 面 这 个 例子 中 , 我 们 将 惩罚 参数 设置 为 1。 我 们 还 可 以 把 它 设 置 为 2( 或 者 一 半 , 或 者 200， 
或 者 2000 万 )。 很 日 然 ， 每 次 的 结 来 郡 会 不 同 。 如 来 我 们 选 了 一 个 过 大 的 值 ， 那 么 就 会 欠 拟 合 。 
在 极端 情况 下 ， 学 习 系 统 可 以 返回 一 个 所 有 参数 都 为 0 的 模型 。 如 采 我 们 选 了 一 个 太 小 的 值 ， 那 
么 就 会 过 拟 合 ， 这 和 OLS 很 相近 ， 泛 化 能 力 较 差 。 

该 如 何 选择 一 个 较 好 的 值 呢 ? 在 机 融 学 习 中 经 带 会 遇 到 这 个 问题 : 为 学 习 方 法 设置 参数 。 一 
种 通用 的 解决 方案 是 使 用 交叉 验证 。 我 们 选择 一 组 参数 值 , 然后 用 交叉 验证 找 出 其 中 最 优 的 一 个 。 
这 和 需要 更 多 的 计算 ( 如 果 用 10 扩 交叉 验证 ， 那 么 就 需要 10 售 的 计算 )， 但 它 是 可 行 的 ， 而 且 没有 
偏向 。 


不 过 , 必须 小 心 谨慎 。 要 想 评 估 泛 化 能 力 , 我 们 需要 使 用 两 层 的 交叉 验证 : 第 一 层 用 来 估计 
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沁 化 能 力 , 第 二 层 用 于 获得 较 好 的 参数 。 这 是 说 ,例如 将 数据 分 成 10 折 。 我 们 从 留存 第 一 折 数 据 
开始 ， 在 剩 下 9 折 数 据 上 学 习 。 现 在 ， 再 把 数据 分 成 10 折 ， 用 来 选择 参数 。 一 旦 设置 了 人 参数， 就 
在 第 一 打上 进行 测试 。 然 后 ， 重 复 9 次 这 样 的 操作 。 








Break into 5 subfolds 





上 图 显示 了 该 如 何 将 一 个 训练 折 拆 分 成 子 折 。 我 们 需要 在 所 有 其 他 数据 折 上 章 复 这 个 过 程 。 
在 这 里 , 我 们 看 到 了 5 个 外 部 数据 折 和 5 个 内 部 数据 折 , 不 过 外 部 和 内 部 数据 折 的 个 数 无 需 一 模 一 
样 ; 你 可 以 使 用 任何 数 子 ， 只 要 把 它们 区 分 开 即 可 。 


这 会 增加 计算 量 , 但 要 把 事情 做 正确 ,这 是 必要 的 。 这 里 的 问题 是 ， 如 果 使 用 了 一 部 分 数据 
来 对 模型 做 出 任何 决 案 ,那么 你 已 经 把 它 污 染 了 ,就 不 能 再 用 它 来 测试 模型 的 沁 化 能 力 。 这 是 一 
个 微妙 的 地 方 ， 可 能 不 是 很 明显 。 事 实 上 ， 很 多 机 融 学 习 使 用 者 都 会 在 这 里 犯错 误 ， 从 而 高 佑 了 
他 们 的 系统 ， 这 是 因为 他 们 没有 正确 使 用 交叉 验证 。 


幸运 的 是 ，Scikit-learn 能 很 容易 把 这 个 事情 做 正确 : 它 有 一 些 类 ， 名 为 LassoCcV、RidgeCyv 
和 ElasticNetcV。 它 们 都 对 内 部 参数 封装 了 交叉 验证 检查 。 这 些 代码 与 之 前 的 代码 完全 类 似 ， 
除了 我 们 并 不 需要 对 alpha 设 置 任何 值 。 


from sklearn.linear model import ElasticNetCV 
met = ElasticNetCV (fit intercept=True) 
kf = KFold(len(target), n folds=10) 
for train,test in kf: 
met.fit(dataltrain|],targetl[ltrain]) 
p = map(met.predict, dataltest]) 
p = np.array (p) .ravel () 
e = p-target[testl] 
err += np.dot(e,e) 
rmse_10cv = np.sqgqrt (err/len(target)) 


这 会 市 来 很 多 计算 ， 所 以 在 你 等 待 的 时 间 里 可 以 哆 点 咖啡 。( 等 竺 的 时 间 长 短 取决 于 你 的 计 
算 机 运行 速度 有 多 快 。) 












































7.3.3 评分 预测 和 推 存 
如 果 你 使 用 过 任何 近 十 年 来 的 商业 在 线 系 统 , 可 能 已 经 看 过 这 些 推 荐 , 例如 亚马逊 的 “购买 
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了 X 的 客户 还 购买 Y"。 我 们 将 会 在 下 一 章 购物 篮 分 析 那 一 节 里 对 此 进行 介绍 。 还 有 就 是 基于 产品 
评分 预测 的 应 用 ， 例 如 电影 评分 。 


后 面 这 个 问题 因为 Netflix Challenge, 一 个 来 自 Netflix 的 百 万 美元 机 器 学 习 挑 战 ,而 广为人知 。 
Netflix (在 美国 和 英国 很 有 名 ， 但 在 其 他 地 方 并 不 出 名 ) 是 一 个 影片 租赁 公司 。 一 直 以 来 ， 他 们 
通过 邮寄 DVD 为 客户 提供 服务 ; 但 是 最 近 , 他 们 的 业务 专注 于 在 线 视 频 流 服务 。 这 项 服务 从 一 开 
始 就 有 一 个 显著 特点 : 用 户 可 以 给 看 过 的 电影 评分 ， 然 后 通过 这 些 评 分 ， 系 统 会 为 用 户 推荐 其 他 
电影 。 通 过 这 种 模式 ， 不 但 能 知道 用 户 看 过 哪些 电影 ， 还 可 以 获悉 他 们 对 这 些 电影 的 印象 分 ( 包 
括 负 面 印象 )。 


2006 年 , Netflix 公 开 了 很 多 用 户 对 电影 的 评分 数据 ,其 目标 是 提升 他 们 的 内 部 评分 推荐 算法 。 
任何 人 如 果 可 以 击败 他 们 的 算法 , 并 且 把 效 采 提升 10% 以 上 , 那么 就 可 以 普 得 100 万 美金 。 在 2009 
年 ， 一 个 名 为 BellKor’s Pragmatic Chaos 的 国际 团队 做 到 了 把 效果 提升 10% 以 上 ， 并 获得 了 奖金 。 
他 们 是 在 为 一 个 队伍 完成 的 20 分 钟 之 前 实现 的 。 男 一 个 队伍 叫做 The Ensemble， 也 做 到 了 把 效果 
提升 10% 以 上 ! 在 这 个 持续 多 年 的 欧 赛 中， 这 是 一 个 十 分 刺激 的 一 线 之 差 。 


遗憾 的 是 ， 由 于 法 律 原 因 ， 这 个 数据 集 不 再 对 外 公开 ( 尽管 数据 是 匿名 的 , 但 仍 有 可 能 骏 露 
用 户 ， 并 泄漏 电影 租赁 的 隐私 信息 )。 不 过 ， 我 们 还 可 以 使 用 一 个 具有 相似 性 质 的 学 术 数 据 集 。 
这 个 数据 集 来 自 于 GroupLens 一 一 明 尼 办 达 大 学 ( University of Minnesota ) 的 一 个 人 研究 实验 室 。 






































真实 世界 中 的 机 器 学 习 


关于 Netflix 奖 ， 已 经 写 了 很 多 ,你 可 能 也 学 到 了 不 少 (本 书 会 给 你 足够 的 信 
息 让 你 起 步 , 并 理解 这 些 问 题 ), 赢得 大 奖 所 使 用 的 技术 , 是 一 些 高 级 机 器 学 习 算 
ea 法 的 融合 体 ， 其 中 包括 很 多 数据 的 预 处 理工 作 。 例如， 一 些 用 户 喜 欢 给 所 有 电影 
都 打 很 高 的 分 数 ， 而 其 他 一 些 人 的 打分 总 是 比较 负面 ; 如 果 在 预 处 理 中 不 把 这 些 
考虑 进去 ， 你 的 模型 就 会 遇 到 困难 。 其 他 一 些 并 不 明显 的 归 一 化 工作 对 于 获得 良 
好 效果 也 是 必要 的 : 电影 有 多 少年 的 历史 ， 它 得 到 了 多 少 个 评分 ， 等 等 。 好 算法 
是 一 件 好 事情 ， 但 你 一 定 要 亲自 动手 调 优 你 的 方法 ， 使 之 适应 数据 的 特性 。 





我 们 可 以 把 它 形式 化 成 一 个 回归 问题 , 并 应 用 本 章 里 学 到 的 方法 。 这 个 问题 并 不 适合 分 类 方 
法 。 我 们 当然 也 可 以 答 试 学 习 一 个 5 类 别 的 分 类 带 ， 一 个 类别 对 应 一 个 可 能 的 分 数 。 这 个 方法 有 
两 个 问题 。 


口 误差 并 不 是 等 同 的 。 例 如 ， 把 5$ 星 电影 评 成 4 星 与 把 $ 星 电影 评 成 1 星 的 错误 严重 程度 并 不 
相同 。 

口 中 间 值 是 有 意义 的 。 即 使 我 们 的 输出 只 有 整数 值 ， 预 测 为 4.7 也 是 很 有 意义 的 。 我 们 可 以 
看 到 它 跟 4.2 是 不 同 的 预测 。 
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这 两 个 因素 加 在 一 起 说 明 ， 分 类 并 不 适合 这 个 问题 。 回 归 的 框架 更 有 赴 理 。 


我 们 有 两 个 选择 : 构建 电影 特定 (movie-specific ) 模型 或 用 户 特定 (user-specific ) 模型 。 在 
这 个 例子 里 , 我 们 会 先 构建 用 户 特 定 模 型 。 这 意味 着 ,针对 每 个 用 户 ， 我 们 把 电影 评分 当做 目标 
变量 。 而 输入 数据 就 是 其 他 用 户 的 打分 。 对 于 那些 与 我 们 的 目标 用 户 观 影 喜 好 较为 相似 的 用 户 ， 
模型 会 赋予 他 们 的 电影 评分 较 高 的 权重 分 值 ; 对 于 那些 与 我 们 的 目标 用 户 观 影 襄 好 完全 相反 的 用 
户 ， 模 型 会 赋予 他 们 的 电影 评分 一 个 负 值 。 


这 束 是 到 目前 为 止 我 们 所 开发 的 应 用 系统 ,你 可 以 在 本 书 网 站 上 找到 数据 集 以 及 读 取 数据 的 
Python 代 人 码 。 在 那里 你 还 会 找到 包含 更 多 信息 的 链接 ， 包 括 原始 的 MovieLens 网 站 。 


数据 读 取 部 分 使 用 基础 Python 即 可 , 所 以 我 们 直接 跳 到 学 : 习 训 练 那 一 部 分 。 有 一 个 稀 芯 怎 阵 ， 
它 的 每 个 数据 项 ， 在 有 评分 的 时 候 ， 取 值 都 是 1 到 $ ( 而 大 多 数 数据 项 都 是 0， 这 代表 用 户 并 没有 
对 这 些 电 影评 分 )。 这 一 回 ， 为 了 尝试 多 种 回归 方法 ， 我 们 将 会 使 用 LassocCVv 类 : 


from sklearn.linear model import LassoCV 
reg = LassoCV(fit intercept=True, alphas=[.125,.25,.5,1.,2.,4.]) 


我 们 通过 将 一 组 明确 的 alpha 值 传递 给 构造 舌 ， 从 而 对 内 部 交 又 验证 所 使 用 的 参数 值 进行 限 
制 。 你 可 能 已 经 发 现 ， 这 些 值 都 是 2 的 倍数 ， 从 1/8 到 4。 现 在 我 们 要 写 一 个 函数 ， 为 用 户 i 学 习 一 
个 模型 . 

# 将 这 个 用 户 分 离 出 来 

u = reviewsl[i] 

我 们 只 对 用 户 u 打 过 分 的 电影 感 兴趣 ， 所 以 我 们 需要 构建 这 些 电影 的 索引 。 在 这 里 可 以 使 用 
NumPy 里 面 的 一 些 技巧 : 用 u .toarray () 从 一 个 稀 玖 矩阵 转换 成 一 个 正 常 的 数组 。 然 后 ， 我 们 
用 ravel () 将 它 从 一 个 行 数 组 (这 是 一 个 二 维 数 组 ， 第 一 维 是 1 ) 转换 成 一 个 人 简单 一 维 数 组 。 我 
们 把 它 和 0 做 比较 ， 看 看 这 个 比较 的 结果 在 什么 地 方 为 真 。 得 到 的 结果 (ps ) 是 一 个 索引 数组 ; 
这 些 索 引 和 该 用 户 打 过 分 的 电影 相对 应 : 


















































U = u.array() .ravel () 
ps, = np.where(u > 0) 


# 构建 一 个 数组 ， 索 引 是 [0…N] 之 间 除 i 以 外 的 数值 


us = np.delete (np.arange (reviews.shape[0]), i) 

x = reviews[us][:,ps].T 

最 后 ， 我 们 只 把 用 户 打 过 分 的 电影 挑选 出 来 : 

y = ul[ps] 

交叉 验证 过 程 跟 之 前 一 样 。 因 为 我 们 有 很 多 用 户 ， 所 以 我 们 只 进行 4 折 验 证 (更 多 折 会 花费 
很 长 时 间 ， 而 我 们 已 经 有 足够 多 的 训练 数据 了 ， 它 占 数据 的 80% ): 
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err = 0 
kf = KFold(lenl(y), n folds=4) 
for train,test in kf: 
# 现在 按 每 个 电影 进行 归 一 化 
# 下 面 进行 了 解释 
XC,X1L = movie norm(x[train]) 
reg.fit(xc, yltrain]-x1) 


# 在 测试 的 时 候 也 需要 进行 同样 的 归 一 化 过 程 


XC,xl1 = movie norm(x[test]) 
p = np.array (map (reg.predict, xc)) .ravel() 
e = (p+xl1)-yl[ltestl] 


err += np.sSum(e*e) 


我 们 不 会 过 多 解释 movie_norm 呆 数 。 这 个 函数 会 按 每 个 电影 进行 归 一 化 : 一 些 电影 在 通 篆 
意义 上 比较 好 ， 会 得 到 高 于 平均 值 的 分 数 : 


def movie norm(x): 














XC = X.cCOopy() .toarray () 
我 们 不 能 使 用 xc .mean (1) , 因为 并 不 想 有 零 计 数 的 均值 。 我 们 只 和 希望 得 到 真实 的 平均 分 数 : 
X1L = np.array ([xi[xi > 0] .mean() for xi in xc]) 





在 一 些 特定 情况 下 ， 数 据 里 并 没有 评分 信息 ， 我 们 就 得 到 了 一 个 NaN 值 。 我 们 用 
np .nan_to_num 把 它 蔡 换 成 0， 正 如 下 面 所 做 的 那样 : 


x1] = np.nan to_ num(xl) 
现在 通过 从 非 0 项 中 减 去 均值 对 输入 数据 进行 归 一 化 : 


for 1 in xrange (xc.shape[0]) : 
xc[i] -= (xc[i] > 0) * xl1[i] 


这 样 做 还 会 隐 式 地 把 用 户 未 评分 电影 的 分 数 设 为 0， 而 这 个 就 是 均值 。 最 后 ， 我 们 把 归 一 化 
后 的 数组 和 均值 返回 回来 : 











return 文 ， 文 荆 


你 可 能 已 经 注音 到 了 ,我 们 把 它 转换 成 了 一 个 正 第 (稠密 的 ) 数组 。 这 种 方式 有 一 个 附加 的 
优点 ， 就 是 它 会 使 优化 过 程 变 得 更 加 迅速 : 虽然 Scikit-learn 可 以 对 稀 玖 数值 处 理 得 很 好 ， 但 它 对 
筒 密 数 组 会 处 理 得 更 快 ( 如 琳 你 能 把 它们 猜 进 内 存 的 话 ; 当 你 做 不 到 的 时 候 , 你 残 必须 使 用 稀 琉 
数组 )。 


与 简单 猜测 平均 分 数 相 比 ， 这 个 方法 有 了 80% 的 提高 。 这 个 结果 并 不 是 多 么 惊人 ,这 只 是 一 
个 开始 。 一 方面 ,这 是 一 个 非常 困难 的 问题 ， 我 们 不 能 期 竺 每 次 预测 都 能 正确 : 当 用 户 给 出 更 多 
评价 的 时 候 , 我 们 可 以 做 得 更 好 。 为 一 方面 ， 在 这 类 任务 上 ， 回 归并 不 是 最 锋利 的 工具 。 注 意 我 
们 是 怎样 为 每 个 用 户 训练 一 个 完全 独立 的 模型 的 。 在 下 一 章 里 , 我 们 将 在 该 问题 上 看 到 超越 回归 
的 其 他 方法 。 在 那些 模型 中 ,我们 将 会 更 加 入 能 地 整合 所 有 用 户 和 电影 的 信息 。 
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7.4 小结 


本 章 ， 我 们 从 一 个 古老 技巧 (普通 最 小 二 乘法 ) 开始 介绍 ; 这 种 方法 有 时 表现 得 依然 很 好 。 
然而 ,我们 还 看 到 了 更 多 能 够 避免 过 拟 合 的 现代 方法 ,它们 可 以 融 来 更 好 的 结果 。 我 们 使 用 了 岭 
回归 、Lasso 法 和 弹性 网 ， 它 们 都 是 最 前 沿 的 回归 方法 。 


我 们 再 一 次 看 到 依赖 训练 误差 估计 泛 化 能 力 的 危险 : 这 是 一 个 过 于 乐观 的 估计 , 模型 的 训练 
误差 可 以 为 0， 但 我 们 知道 这 样 的 模型 可 能 上 毫 无 用 处 。 在 深入 思考 这 些 问 题 之 后 ， 我 们 被 引导 至 
双 层 交叉 验证 。 它 很 重要 ,该 领域 里 还 有 很 多 东西 没有 完全 内 部 化 。 在 这 期 间 ,我 们 依赖 Scikit-learn 
的 支持 ， 实 现 了 所 有 期 望 的 操作 ， 包 括 一 种 实现 正确 交叉 验证 的 简单 方式 。 


在 本 蕴 的 最 后 ,我 们 开始 转换 方 品 ， 了 解 了 一 下 推荐 问题 。 现 在 , 我 们 是 通过 一 些 已 知 的 工 
具 解 决 这 个 问题 的 : 惩罚 式 回归 。 在 下 一 章 里 ， 对 于 这 个 问题 ， 我 们 将 会 看 到 新 式 的 、 更 好 的 工 
具 。 它 们 将 进一步 提升 效 末 。 


这 种 推荐 方式 也 有 一 个 缺点 , 那 就 是 要 求 用 户 对 物品 必须 给 出 一 个 数字 形式 的 评分 。 但 在 实 
际 生 活 中 ， 只 有 部 分 用 户 会 给 出 评分 。 其 实 ， 还 有 另外 一 类 比较 容易 获得 的 信息 可 以 利用 : 哪些 
物品 被 一 起 购买 。 在 下 一 半 里 , 我 们 将 会 看 到 如 何在 一 个 框架 中 应 用 这 一 信息 ， 这 个 框架 叫做 购 
物 和 名 分 析 (basket analysis )。 


















































回归 : 改进 的 推 存 


在 上 一 章 的 最 后 , 我 们 用 一 个 非常 简单 的 方法 构建 了 一 个 推荐 引擎 : 利用 回归 来 猜测 用 户 的 
评分 。 在 本 章 的 第 一 部 分 里 ， 我 们 将 继续 进行 这 部 分 工作 ， 构 建 一 个 更 高 级 ( 而 且 更 好 ) 的 评分 
估算 器 。 我 们 从 一 些 有 益 的 想法 开始 ， 然 后 把 所 有 这 些 想法 组 合 起 来 。 在 组 合 过 程 中 , 我 们 会 再 
次 使 用 回归 ， 来 学 习 最 佳 的 组 合 方式 。 


在 8.2 节 ， 我 们 将 采用 一 种 完全 不 同 的 学 习 方 式 ， 它 叫做 购物 篮 分 析 (basket analysis )， 讲 解 
如 何 用 它 来 进行 推荐 。 并 不 像 之 前 那样 需要 一 个 数字 评分 ; 在 购物 篮 分 析 中 ， 我 们 区 握 关 于 购物 
得 的 信息 即 可 ， 也 就 是 哪些 物品 被 一 起 购买 了 。 我 们 的 目标 是 用 它 来 学 习 推 荐 。 你 可 能 已 经 在 网 
络 购物 中 看 到 过 形 如 “购买 了 X 的 人 同时 也 购买 了 Y” 这 样 的 特征 ,我们 将 开发 出 一 个 类 似 的 特征 。 


























8.1 ”改进 的 推 在 


回想 一 下 上 一 章 我 们 讲 到 哪里 了 : 一 个 非 第 简单 ， 比 随机 预测 的 效果 要 好 , 但 并 不 是 特别 优 
芳 的 推荐 系统 。 现 在 开始 对 它 进行 改进 。 痛 和 完 ， 先 看 儿 个 能 抓 住 部 分 问题 本 质 的 想法 。 然 后 ,我 
们 要 做 的 就 是 把 多 种 方法 融合 在 一 起 ， 而 非 茶 个 单独 方法 ， 以 便 实 现 更 好 的 最 终 效 末 。 


我 们 将 使 用 上 一 革 中 用 到 的 电影 推荐 数据 集 ; 它 包 含 一 个 矩阵 , 其 中 一 个 轴 是 用 户 , 为 一 个 
轴 和 是 电影 。 它 是 一 个 稀 蔓 矩阵， 因为 每 个 用 户 只 会 对 一 小 部 分 电影 进行 评价 。 























8.1.1 使 用 二 值 推荐 矩阵 


从 Netflix Challenge 中 可 以 得 到 一 个 有 趣 的 结论 ， 束 是 下 面 这 个 事后 看 起 来 很 明显 的 想法 : 
仅仅 从 “你 给 哪些 电影 评 了 分 ”这 个 信息 里 , 我 们 就 能 了 解 到 很 多 关于 你 的 信息 ,其 至 根本 不 用 
知道 你 究竟 打 了 多 少 分 。 使 用 一 个 二 值 怎 阵 〈1 分 表示 用 户 对 电影 进行 了 评价 ，0 分 表示 没有 进行 
评价 )， 我 们 就 可 以 获得 一 个 很 好 的 预测 效 末 。 在 事后 这 看 起 来 非常 有 道理 ;我们 不 会 完全 随机 
地 选择 观看 哪 部 电影 ,相反 我 们 会 选择 那些 目 己 已 经 有 所 期 盼 的 电影 。 我 们 也 不 会 随便 选择 一 些 
电影 去 评分 ,而 是 只 给 那些 我 们 特别 有 感想 的 电影 打分 ( 目 然 , 这 里 面 会 有 例外 ,但 平均 来 看 这 
很 可 能 是 真实 的 )。 
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我 们 用 一 幅 图 像 把 矩阵 的 值 可 视 化 地 显示 出 来 ,其 中 每 个 评分 是 一 个 小 方 格 。 黑 色 代 表 缺 少 
评分 ,而 灰 度 级 别 代表 了 评分 的 数值 。 我 们 可 以 看 到 这 个 矩阵 是 稀 玖 的 一 一 大 多 数 方块 都 是 黑色 
的 。 我 们 还 会 发 现 一 些 用 户 点 评 过 的 电影 比 其 他 人 多 很 多 , 而 一 些 电影 也 比 其 他 电影 获得 了 更 多 
的 评分 。 











用 来 可 视 化 数据 的 代码 非常 简单 ( 你 稍 作 修改 就 可 以 显示 出 比 本 书 所 能 显示 的 更 大 的 和 矩阵 )， 
如 下 所 示 : 


from matplotlilb import pyplot as plt 
imagedata = reviews[:200, :200] .todense() 
plt.imshow(imagedata, interpolation='nearest') 


下 图 束 是 这 段 代码 的 输出 : 





User ID 








我 们 将 会 使 用 这 个 二 值 矩 阵 来 对 电影 打分 进行 预测 。 大 致 算法 〈 伪 代码 ) 如 下 所 示 。 








(1) 对 于 每 个 用 户 ， 根 据 用 户 间 的 相近 程度 对 其 他 用 户 排序 。 在 每 一 步 里 ， 我 们 都 会 使 用 这 
个 二 值 和 矩阵， 并 把 用 户 之 间 的 相关 性 作为 相近 程度 的 衡量 标准 。( 将 这 个 二 值 矩 阵 解 释 为 一 组 0 
和 一 组 1 ， 我 们 束 能 够 进行 计算 了。 ) 

(2) 当 我 们 需要 给 一 个 用 户 - 电 影 数据 对 佑 算 评 分 的 时 候 , 我 们 顺序 地 查找 用 户 的 近邻 (在 第 
一 步 中 已 定义 )。 当 发 现 第 一 个 对 该 电影 的 评分 时 ， 将 它 输出 。 














我 们 首先 写 一 个 NumPy 冰 数 来 实现 这 个 功能 。NumPy 里 有 一 个 np .corrcoeff 可 以 计算 相关 
性 。 这 是 一 个 通用 函数 , 可 以 用 来 计算 m 维 四 量 之 间 的 相关 性 ， 即 使 需要 的 只 是 一 个 传统 相关 性 。 


~、 
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因此 ， 要 计算 两 个 用 户 之 间 的 相关 性 ， 我 们 需要 这 样 调用 : 





COTT_between_ userl1 and user2 = np.corrcoef (userl1l, user2)[0,11 


事实 上 , 我 们 想 要 计算 一 个 用 户 和 其 他 所 有 用 户 之 间 的 相关 性 。 也 就 是 说 我 们 将 会 多 次 用 到 
这 一 操作 ， 所 以 我 们 把 它 封 装 在 一 个 也 数 里 叫做 al1l_correlations: 


import numpy as np 
def all correlations (bait, target): 


Corrs = all correlations (bait, target) 
corrs[i] is the correlation between bait and target[i] 
return np.arrayl( 


[np.corrcoef (bait, c)[0,1] 
for c in targetl]) 


现在 可 以 用 多 种 方法 来 使 用 它 。 一 种 简单 方法 是 选择 每 个 用 户 的 最 近 近 邻 , 也 就 是 和 该 用 户 
最 相似 的 。 我 们 将 使 用 之 前 讨论 过 的 相关 性 : 


def estimate(uUuser，Lrest) : 








estimate movie ratings for 'user' based on the 'rest' of the universe. 


# _ User 打分 的 二 值 版 本 
bu = user > 0 

# 上 上 est 打分 的 二 值 版 本 

br = rest > 0 

ws = all correlations (bu,br) 

选择 最 高 的 100 个 值 

selected = ws.argsort()[-100:] 

根据 平均 值 估算 

estimates = restl[lselected] .mean(0) 

# 我 们 需要 纠正 这 些 估 算 

# 基于 一 些 电影 得 到 的 打分 数量 比 别 的 电影 多 这 个 事实 
estimates /= (.1+br[selectedq]l .mean(0) ) 


与 从 数据 集中 所 有 用 户 那 里 得 到 的 估算 相 比 , 这 种 方式 可 以 使 RMSE 降 低 20%。 和 往常 一 样 ， 
如 果 只 看 那些 进行 过 多 次 预测 的 用 户 ， 我 们 可 以 做 得 更 好 : 如 果 用 户 排 在 评分 活动 的 前 半 部 分 ， 
那么 预测 误差 会 降低 25%。 


井 


井 








8.1.2 ”审视 电影 的 近邻 


在 前 一 市 里 , 我 们 审视 了 最 相似 的 用 户 。 我 们 还 可 以 看 一 下 哪些 电影 是 最 相似 的 。 现 在 我 们 
构建 一 个 基于 电影 最 邻近 规则 的 推荐 系统 : 在 预测 用 户 U 对 电影 M 评 分 的 时 候 ， 这 个 系统 所 预测 
的 U 对 M 的 评分 ， 和 它 对 最 相似 电影 的 评分 是 相同 的 。 


因此 , 我 们 会 按照 两 个 步骤 进行 : 第 一 步 , 我 们 计算 出 一 个 相似 窍 阵 〈 该 官 阵 告诉 我 们 哪些 
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电影 是 最 相似 的 ) 第 二 步 ， 我 们 对 每 一 个 “用 户 - 电 影 “对 的 评分 进行 估算 。 
我 们 用 NumPy 中 的 zeros 和 ones 限 数 分 配 数 组 空间 (分别 初 始 化 成 0 和 1 ): 


movie_ likeness = np.zZeros( (nmovies,nmovies)) 
allms = np.ones (nmovies, bool) 
cs = np.zZeros (nmovies) 


现在 ， 我们 饥 历 所 有 电影 : 


for 1 in range (nmovies): 
movie likeness[i] = all correlations (reviews[:,i], reviews.T) 
movie likeness[i,i] = -1 


我 们 把 对 角 元 系 设 为 -1; 否则 ， 对 于 任何 电影 来 说 ， 与 之 最 相似 的 电影 就 是 它 目 己 。 这 是 
一 个 事实 ， 却 对 我 们 没有 任何 帮助 。 这 和 在 第 2 章 中 介绍 最 邻近 分 类 方法 时 所 使 用 的 技巧 是 一 样 
的 。 基 于 这 个 矩 了 泗 ， 我 们 很 容易 写 一 个 函数 来 估算 评分 : 


def nn movie (movie likeness, reviews, uid, mid): 














likes = movie likeness[mid] .argsort() 
# 逆序 排列 ， 使 最 受 喜爱 的 电影 排 在 前 面 
likes = likes[::-1] 


# 返回 最 相似 电影 的 评分 
for ell in likes: 
if reviewsl[u,ell] > 0: 
return reviews [u,elll] 


前 面 这 个 函数 做 得 怎么 样 呢 ? 还 凑合 : 它 的 RMSE 只 有 0.85。 


前 面 这 段 代 码 并 没有 把 交叉 验证 的 细节 给 出 来 .尽管 这 样 写 在 应 用 时 效果 不 
”” 错 , 但 对 于 测试 ， 我 们 需要 确保 我 们 已 经 重新 计算 过 训 好 短 阵 ,并且 没有 使 用 过 
KW 测试 中 的 用 户 信息 (否则, 我 们 就 污染 了 测试 集 , 会 得 到 一 个 对 泛 化 能 力 过 于 乐 
i 观 的 估计 )， 送 憾 的 是 ， 它 的 运行 时 间 很 长 ， 而 我 们 其 实 并 不 需要 每 个 用 户 的 全 
部 矩阵 信息 ， 只 需 计 算 那 些 我 们 需要 的 东西 就 可 以 了 。 这 会 使 代码 比 之 前 的 要 更 
复杂 一 些 。 在 本 书 的 网 站 上 ,你 可 以 找到 关于 所 有 细节 的 代码 。 你 还 可 以 找到 一 

个 更 快 的 al1_correlation 函 数 的 实现 。 


8.1.3 组 合 多 种 方法 

现在 我 们 把 前 一 节 里 的 儿 种 方法 组 合 在 一 起 , 做 出 一 个 新 预测 。 例 如 , 我 们 可 以 对 各 种 方法 
的 预测 结果 取 平 均值 。 一 般 来 次 这 样 做 已 经 足够 好 了 , 但 是 我 们 不 能 想当然 地 认为 两 种 方法 的 预 
测 结 来 一 样 好 ， 并 且 愉 好 具有 相同 的 权重 0.5。 或 许 ， 其 中 一 个 是 更 好 的 。 

我 们 尝试 采用 加 权 平 均 : 在 把 预测 结果 相 加 之 前 ,证 每 个 预测 乘 以 一 个 权重 。 那 么 我 们 又 该 
如 何 设 置 最 佳 的 权重 呢 ? 当然 ， 我 们 可 以 从 数据 中 学 习 出 来 ! 
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集成 学 习 


我 们 使 用 的 是 机 器 学 习 中 的 一 种 通用 技术 ， 叫 做 集成 学 习 ( ensemble 
learning ); 它 并 不 仅仅 适用 于 回归 问题 。 我 们 学 习 出 (一 组 ) 预测 器 的 集成 体 ， 
然后 把 它们 组 合 在 一 起 。 有 趣 的 是 ， 我 们 可 以 把 每 个 预测 器 的 结果 当做 一 个 新 
特征 。 现 在 是 基于 训练 数据 把 这 些 特征 组 合 在 一 起 ， 而 这 正 是 我 们 一 直 在 做 的 
Re 旦 是 同样 的 推理 在 分 类 问题 中 也 适 
ie 用 : 你 可 以 创建 几 个 分 类 器 和 一 个 主 分 类 器 ， 主 分 类 器 会 接收 所 有 分 类 器 的 结 

果 并 给 出 一 个 最 终 的 预测 。 组 合 基 本 分 >、 类 器 的 不 同方 式 ， 决 定 了 集成 学 习 的 不 
同形 式 。 在 这 里 ， 我 们 复 用 了 在 学 习 预 测 器 时 所 使 用 的 训练 数据 。 


预测 1 
预测 2 最 终 的 


预测 3 观测 





有 了 这 样 一 种 组 合 多 种 方法 的 灵活 方式 , 我 们 束 可 以 答 试 任何 想法 , 并 把 它 加 到 学 习 带 的 混 
合体 中 , 然后 让 系统 给 出 一 个 权重 。 我 们 还 可 以 用 这 些 权重 来 发 现 哪 些 想 法 比较 好 : 如 果 它 们 得 
到 了 较 高 的 权重 ， 那 意味 着 它们 加 入 了 有 用 的 信息 。 而 权重 很 低 的 想法 甚至 可 以 丢 径 。 


代码 非常 简单 ， 如 下 所 未 : 


# 引入 前 一 个 例子 中 所 使 用 的 代码 


import similar movie 


import corrneighbors 8 
import usermodel 


from sklearn.linear model import LinearRegression 





es = [ 
usermodel .estimate all() 
corrneighbors.estimate all(), 
similar movie.estimate all(), 


] 


coefficients = [|] 

# 我 们 将 进行 留 一 交叉 验证 

for u in xrange (reviews.shape[0]): # 对 所 有 用 户 的 id 
es0 = np.delete(es,u,1) # 除外 的 所 有 用 户 
r0 = np.delete(reviews, u, 0) 


P0,P1 = np.where(r0 > 0) # 我 们 只 关心 实际 预测 结果 
X = es[:,P0O,P1I] 
y = r0[r0 > 0] 
reg.fit(x.T,y) 
coefficients.append(reg.coef ) 
prediction = reg.predict(es[:,u,reviews[u] > 0].T) 


# 和 以 前 一 样 衡量 误差 


得 到 的 结果 是 ,RMSE 儿 乎 为 1。 我 们 还 可 以 分 析 一 下 coefficients 变 量 , 看 看 预测 各 的 效 
果 如 何 : 


print coefficients.mean(0) # 所 有 用 户 的 平均 值 


这 个 数组 的 值 是 [0.25164062，0.01258986，0.60827019] 。 基 于 最 相似 电影 的 方法 ， 
可 以 得 到 最 高 的 权重 ( 它 是 最 佳 的 预测 ， 所 以 这 并 不 奇怪 )， 同 时 我 们 在 学 习 过 程 中 还 可 以 舍 去 
基于 相关 性 的 方法 ， 因 为 它 对 最 终结 果 的 影响 非常 小 。 

这 种 设置 可 以 让 人 很 容易 加 入 一 些 额外 的 想法 ; 例如 , 既然 计算 最 相似 电影 是 一 个 效果 不 错 
的 预测 融 , 那么 在 学 习 过 程 中 使 用 5 个 最 相似 电影 义 会 如 何 呢 ?我 们 可 以 修改 前 面 的 代码 来 生成 
个 最 相似 电影 ， 然 后 用 栈 式 的 学 习 央 来 学 习 权 重 : 











es = | 
usermodel.estimate all() 
similar movie.estimate all 
similar movie.estimate all 
similar movie.estimate all 
similar movie.estimate all 


全 人 全 全 于 
UR 人 OD 


similar movie.estimate all 
] 
# 剩 下 的 代码 跟 以 前 一 样 
我 们 有 很 大 的 目 由 来 生成 新 的 机 各 学 习 系 统 。 在 这 个 例子 里 , 最 终结 果 并 不 会 更 好 , 但 我 们 
很 容易 测试 这 个 新 想法 。 


然而 ,我 们 必须 齐 慎 ， 避 免 对 数据 过 拟 合 。 事 实 上 ， 如 末 我 们 随机 答 试 很 多 东西 ,那么 其 中 
一 些 就 会 在 这 个 数据 集 上 效果 不 错 但 泛 化 能 力 不 行 。 即 使 我 们 正在 使 用 交 义 验证 , 我 们 却 并 没有 
对 设计 决策 进行 交叉 验证 。 为 了 获得 一 个 较 好 的 估计 ， 在 有 很 多 数据 的 情况 下 , 应 该 把 一 部 分 数 
据 预 留 出 来 不 要 动 ， 百 到 最 终 模 型 即将 投入 使 用 的 时 候 。 然 后 , 用 这 份 数据 测试 模型 的 效果 ,这 
样 就 可 以 得 到 模型 在 呐 实 应 用 中 预期 效果 的 无 俩 差 预 测 。 




















8.2 购物 篮 分 析 


如 果 有 一 些 用 户 按照 目 己 的 喜爱 程度 对 商品 进行 了 评分 , 那么 根据 这 些 信 息 , 我 们 就 可 以 使 
用 之 前 讨论 的 方法 ， 取 得 不 错 的 效果 。 然 而 我 们 有 时 无 法 得 到 这 类 信息 。 


购物 篮 分 析 是 学 习 推 荐 的 另 一 种 模式 。 在 这 种 模式 下 ， 我 们 的 数据 只 含有 “哪些 物品 被 一 
起 购买 ”这 样 的 信息 ， 而 不 包含 任何 关于 人 们 是 否 喜 欢 某 件 物 品 的 信息 。 复 数据 的 生成 是 购物 行 
为 的 一 个 副产品 , 通常 这 类 数据 比 评 分 信息 更 容易 获得 ， 因 为 很 多 用 户 根 本 不 会 提供 评分 。 下 面 
是 亚马逊 网 上 War and Peace ( Leo Tolstoy 著 ) 这 本 书 的 相关 截图 。 这 是 使 用 这 些 结果 的 一 种 经 典 
方式 : 























8.2 ”购物 篮 分 析 133 


customers Who Bought This Item Also Bought 


LO INYCE! 
me 


国 NOTHERS™ 
KARAMAZDN 


ANnna Karenina The Brothers Karamazov The ldiot Vintage Classics) 
Leo TolstoYy Fyodor Dostoewsky Fyodor Dostoevwsky 

克 直 太志 万 !248) 高 高 高 高 页 (57) 
Paperback Paperback Paperback 

$10.35 $11.25 $10.88 








这 种 学 习 模 式 并 不 只 适用 于 实际 的 购物 篮 。 它 适用 于 任何 根据 已 有 的 多 个 对 象 推荐 万 一 个 对 
象 的 悄 况 。 例 如 ， 当 用 户 正 在 Gmail 里 写 电子 邮件 的 时 候 ， 可 以 给 他 推荐 更 多 的 收 件 人 。 这 个 功 
能 可 以 用 类 似 的 技术 实现 (我们 并 不 知道 Gmail 内 部 用 的 是 什么 ; 或 许 它 已 经 把 剖面 介绍 的 多 种 
技术 融合 在 一 起 了 )。 或 者 ,我们 可 以 用 这 些 方法 开发 出 一 个 基于 浏览 历史 的 网 页 推荐 应 用 。 即 
使 我 们 正在 处 理 的 是 交易 记录 , 把 某 个 客户 的 交易 信息 分 组 到 “物品 古 否 被 一 同 购 买 或 来 日 不 同 
交易 ”的 独立 篮子 里 (这 取决 于 交易 背景 信息 )， 也 是 有 意义 的 。 























啤酒 与 尿布 的 故事 


在 购物 篮 分 析 中 ,一 个 经 常会 被 提 到 的 故事 就 是 “尿布 与 啤酒 ”的 故事 。 它 
是 说 , 当 超 市 工作 人 员 第 一 次 查看 他 们 的 数据 的 时 候 , 他 们 发 现 尿布 经 常会 和 啤 
” ” 酒 被 一 同 购买 。 据 推测 ， 这 是 一 些 孩子 的 父亲 ,他 们 在 超市 里 购买 尿布 的 时 候 还 
会 挑选 一 些 啤 酒 。 人 们 对 这 个 假设 到 底 是 真实 的 , 还 是 仅仅 是 一 个 城市 故事 , 进 
一 行 过 很 多 讨论 ,在 这 个 例子 里 , 它 好 像 是 真实 的 ,在 20 世 纪 90 年 代 早 期 ,Osco Drug 
发 现 , 在 傍晚 ， 啤酒 和 尿布 会 被 一 同 购买 ,这 令 一 些 管 理 者 们 感到 非常 惊奇 , 他 
们 直到 那 时 也 从 未 把 这 两 样 商品 当做 是 相似 的 东西 ,这 并 不 会 导致 商店 把 啤酒 摆 
放 在 离 尿 布 更 近 的 地 方 。 还 有 , 我 们 也 并 不 知道 父亲 到 底 会 不 会 比 母 亲 (或 者 祖 

父母 ) 更 容易 同时 购买 啤酒 和 尿布 。 


8.2.1 获取 有 用 的 预测 


并 不 仅仅 是 “ 购 严 了 X 的 客户 也 会 购 头 Y”， 即 便 很 多 在 线 等 售 商都 这 样 说 ( 见 前 面 给 出 的 亚 
马 逊 网 鹤 图 ); 一 个 真实 系统 并 不 是 这 样 工 作 的。 为 什么 不 是 呢 ? 因为 这 样 的 系统 会 被 购 天 频率 
比较 高 的 物品 所 蚌 弄 ， 然 后 只 会 稍 单 推荐 那些 流行 的 物品 ， 而 不 融 有 任何 个 性 化 。 


例如 ， 在 一 个 超市 里 ， 很 多 客户 都 购买 了 面包 ( 比如 50% 的 客户 灭 了 面包 ) 所 以 ， 当 你 天 
注 任 何 特定 物品 ( 比如 肥 电 )， 并 看 哪些 物品 会 经 第 跟 肥 电 一 起 出 售 的 时 候 ， 你 或 许 会 发 现 ， 面 
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包 是 经 名 跟 肥 时 一 起 出 售 的 。 事 实 上 ， 在 采 人 购买 肥 时 次 数 的 五 成 里 ， 他 们 也 同时 购买 了 面包 。 
但 是 ， 面 包 其 实 会 和 任何 东西 一 起 出 售 ， 因 为 每 个 人 部 经 常 购 屎 面包 。 


我 们 真正 要 寻找 的 是 “ 相 比 基准 ,在 统计 上 更 可 能 购买 Y 的 购买 了 X 的 客户 ”。 所 以 如 末 你 购 
天 了 肥 时 ， 你 可 能 还 会 购买 面包 , 但 没有 比 基 准 的 可 能 性 更 大 。 类 似 的 ,一 个 书店 如 末 不 管 你 已 
经 购买 了 什么 书 ， 而 只 是 一 味 地 推荐 热 销 图 书 ， 那 么 它 在 个 性 化 推荐 上 就 没有 做 好 。 











8.2.2 ”分 析 超 市 购物 篮 


例如 , 我 们 来 看 一 下 比利时 一 家 超市 匿名 交易 记录 的 数据 集 。 这 个 数据 集 是 由 喻 蕊 尔 特大 学 
( Hasselt University ) 的 Tom Brijs 所 提供 的 。 里 面 的 数据 痢 是 匿名 的 ， 所 以 对 每 个 商品 我 们 只 有 一 
个 编写， 而 一 个 购物 篮 就 是 一 组 编写。 该 数据 文件 (retail.dat ) 可 以 从 一 些 网 上 资源 里 ( 包括 本 
书 的 网 站 ) 下 载 到 。 

从 庶 取 数据 开始 ， 并 查看 一 些 统计 值 : 


from collections import defaultdict 





from itertools import chain 
# 文件 格式 是 每 行 一 个 交易 记录 
# 形式 如 “12 34 342 5…” 
dataset = [[int(tok) for tok In ,line.strip().split()] 
for line In open('retail.dat')] 
# 统计 每 件 商品 被 购买 了 多 少 次 
counts = defaultdict (int) 
for elem in chain (*dataset): 
counts[elem| += 1 


我 们 可 以 画 出 如 下 所 述 的 柱状 图 : 


# 购买 次 数 # 产品 个 数 
只 有 1 次 2224 

2 次 或 3 次 2438 

4 到 7 次 2508 

8 到 15 次 2251 

16 到 31 次 2182 

32 到 63 次 1940 

64 到 127 次 1523 
128 到 511 次 1225 
512 次 或 更 多 179 





有 很 多 商品 只 被 购买 过 几 次 。 例 如 ， 有 33% 的 商品 只 出 售 过 4 次 或 更 少 次 数 。 然 而 ， 这 个 数 
量 只 代表 了 1% 的 购 天 量 。 这 种 很 多 商品 只 被 购买 过 少数 几 次 的 现象 ， 有 时 称 作 “ 长 尾 ” 现 象 。 
由 于 互联 网 让 转 积 和 销售 商品 更 为 廉价 , 这 种 现象 也 变 得 越 来 越 突出 。 为 了 能 为 这 些 商 品 提 供 推 
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存 ， 我 们 需要 更 多 的 数据 。 


虽然 网 上 有 一 些 购物 篮 分 析 算 法 的 开源 实现 ， 但 没有 一 个 能 很 好 地 整合 scikit-learn 或 其 他 我 
们 正在 使 用 的 程序 库 。 因 此 ,我 们 将 会 日 己 实现 一 个 经 典 算法 ， 那 就 是 Apriori 算 法 。 它 有 一 点 年 
头 了 (由 Rakesh Agrawal 和 Ramakrishnan Srikant 发 表 于 1994 年 ), 但 仍然 能 够 工作 ( 当然 ， 算 法 永 
远 都 不 会 停止 工作 ; 它们 只 会 被 更 好 的 想法 取代 )。 


在 形式 上 ，Apriori 会 将 一 些 集合 (这 里 指 的 是 购物 篮 ) 当做 输入 , 并 返回 这 些 集合 中 出 现 频 
座 非 党 高 的 子 集 (这 是 说 ， 一 起 出 现在 很 多 购物 篮 中 的 商品 )。 

这 个 算法 是 以 目 确 同上 的 方式 工作 的 : 从 最 小 的 候选 集合 开始 〈 只 包含 一 个 元 素 )， 然 后 每 
次 加 入 一 个 元 系 ， 并 且 不 断 增 大 。 在 这 里 我 们 需要 定义 一 下 我 们 所 要 寻找 的 最 小 文 持 度 : 








minsupport = 80 


文 持 度 承 是 商品 被 一 起 购买 的 次 数 。Apriori 的 目标 台 是 寻找 一 个 高 文 持 度 的 项 集 (itemset )。 
从 逻辑 上 讲 ， 任 何 具有 最 小 支持 度 的 项 集 ， 里 面 每 个 物品 都 至 少 具有 该 最 小 文 持 度 : 














Valid = set(k for k,v In counts.1items() 
If (v >= minsupport)) 


我 们 的 初始 项 集 是 单 例 ( 只 有 一 个 元 系 ) 而 频 莹 项 集 就 是 所 有 人 至少 具 有 最 小 支持 度 的 单 例 : 














itemsets = [frozenset([v]) for Vv In validl] 
现在 ,遍历 非常 简单 ， 如 下 所 示 : 


new_ itemsets = [|] 
for iset in itemsets: 
for Vv in valid: 
if Vv not in iset: 
# 我 们 创建 一 个 新 的 候选 集合 
# 它 和 之 前 的 一 样 
# 只 是 多 了 Vv 
newset = (ell|set([v_])) 
# 在 数据 集中 遍历 ， 并 统计 newset 出 现 的 次 数 
# 这 一 步 比 较 慢 
# 并 没有 使 用 较 好 的 实现 
Cc_newset = 0 
for d in dataset: 
If d.issuperset(c): 
Cc_newset += 1 
If c newset > minsupport: 
newsets.append (newset) 


这 样 做 是 正确 的 , 但 速度 很 慢 ,。 一 个 更 好 的 实现 需要 利用 更 多 的 基础 设施 ,以便 避免 在 所 有 
数据 集中 扣 历 来 统计 c_newset。 值 得 一 提 的 是 ， 我 们 可 以 退 踩 哪 些 购物 锯 包 含 哪 些 频 蚂 项 集 。 
这 将 使 循环 加 速 , 但 会 让 代码 更 加 难 懂 。 因 此 ， 我 们 束 不 在 这 里 给 出 了 。 像 往常 一 样 ， 你 可 以 在 
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本 书 的 网 站 上 找到 这 两 种 实现 。 那 段 代 码 还 被 包含 在 一 个 函数 里 ， 可 以 应 用 于 其 他 数据 集 。 
Apriori 算 法 所 返回 的 频 过 项 集 ， 就 是 一 些 没有 用 任何 具体 数值 来 量化 〈 代 码 中 的 minsupport ) 

的 微小 购物 篮 。 

8.2.3 ”天 联 规 则 挖掘 


频繁 项 集 本 身 并 不 是 很 有 用 处 。 下 一 步 是 构建 关联 规则 ( association rule )。 由 于 这 是 最 终 目 
标 ， 因 此 整个 购物 篮 分 析 领 域 有 时 又 叫做 关联 规则 挖掘 (association rule mining )。 














一 个 关联 规则 就 是 形 如 “如 果 X 则 Y” 这 样 的 一 种 陈述 ; 例如 , 如 果 顾 客 购 买 了 Warand Peace， 
那么 他 们 还 会 购买 4nna Kareniza。 注 意 ， 规 则 并 不 是 确定 性 的 〈 并 不 是 所 有 顾客 购买 了 X 之 后 都 
会 购买 Y)， 总 把 这 些 都 陈述 出 来 也 是 相当 麻烦 的 。 所 以 ， 关 联 规则 的 意思 是 说 ， 如 果 一 个 顾客 
购买 了 X， 相 对 于 基线 ， 他 将 更 可 能 购买 Y; 我 们 所 说 的 “如 果 X 则 Y”， 是 从 概率 音义 上 说 的 。 


有 趣 的 是 ， 规 则 的 前 项 和 结论 是 可 以 包含 多 个 对 和 象 的 : 购 关 X、Y 和 ZZ 的 顾客 还 购买 了 TA、B 
和 C。 多 前 项 的 条 件 可 以 允许 你 做 出 更 为 具体 的 预测 。 

你 可 以 通过 答 试 所 有 可 能 的 X 综 含 Y 组 合 ， 从 频 索 集合 中 得 到 一 条 规则 。 要 生成 很 多 集合 是 
很 容易 的 。 然 而 ， 你 想 要 的 只 是 有 价值 的 规则 。 因 此 ,我 们 需要 衡量 每 个 规则 的 价值 。 一 个 经 篆 
使 用 的 衡量 标准 叫做 提升 度 (1ift )。 提 升 度 就 是 规则 和 基线 所 得 到 的 概率 之 间 的 比值 : 























ift(X 一 了 ) = Sn 








在 前 面 这 个 公式 里 ，P( 妨 就 是 所 有 交易 记录 中 包含 7 的 比例 ， 而 P( 了 8 避 就 是 交易 记录 中 同时 
包含 YR 和 IX 的 比例 。 使 用 提升 度 可 以 帮 你 避免 推荐 热 销 商品 ; 对 于 一 个 热 销 商 品 ，P(Y) 和 P(X|Y) 
都 会 很 大 。 因 此 ， 如 果 提 升 度 接 近 1， 那 么 这 条 规则 就 会 被 认为 是 很 不 相关 的 。 在 实践 中 ， 我 们 
希望 这 个 值 至 少 是 10, 或 甚至 是 100。 


参考 下 面 这 段 代 码 : 


def rules_ from itemset (itemset, dataset): 
itemset = frozenset (itemset) 
nr_transactions = float(len(dataset)) 
for item in itemset: 
antecendent = itemset-consequent 
base = 0.0 
# account : 前 项 的 计数 
acount = 0.0 


# ccount : 后 项 的 计数 
Ccount = 0.0 
for d in dataset: 

if item in d: base += 1 
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if d.issuperset (itemset): ccount += 1 
If d.issuperset (antecedent): acount += 1 
base /= nr_transactions 
pP_y_given x = ccount/acount 
lift = py given x / base 
print('Rule {0} -> {1} has lift {2}' 
.format (antecedent, consequent,11ift)) 


这 是 一 段 运 行 得 比较 慢 的 代码 : 我 们 在 整个 数据 集 上 重复 迷 代 。 一 个 更 好 的 实现 方式 是 把 统 
计 值 缓存 起 来 。 你 可 以 从 本 书 的 网 站 上 下 载 到 一 个 类 似 的 代码 ， 它 的 运行 速度 相对 快 一 点 。 


其 中 一 些 结果 在 下 面 这 个 表 中 列 出 : 














前 项 后 项 后 项 的 计数 前 项 的 计数 前 项 和 后 项 的 计数 提升 度 
1378、13791、1380 1269 279 (0.3%) 80 57 255 
48、41、976 117 1026 (1.1%) 122 51 35 
48、41、16011 16010 1316 (1.5%) 165 159 64 





这 里 的 计数 就 是 交易 次 数 ， 它 们 包括 如 下 几 项 : 


D 条 件 后 项 ( 这 是 说 ， 商 品 被 购 天 的 基准 比例 ); 
口 条 件 前 项 中 的 所 有 项 ; 
口 条 件 前 项 和 后 项 中 的 所 有 项 。 


我 们 可 以 看 到 ， 例 如 ， 在 80 个 交易 中 ，1378、13791 和 1380 被 一 起 购买 。 在 这 当中 ， 有 57 
个 交易 包含 1269， 所 以 估算 出 的 条 件 概率 就 是 57/80 二 71%。 与 所 有 交易 中 只 有 0.3% 包 含 1269 这 
个 事实 相 比 ， 它 得 到 了 255 的 提升 度 。 


我 们 在 计数 中 需要 有 相当 多 的 交易 记录 , 才能 得 到 相对 稳固 的 推论 。 这 就 是 必须 首先 挑选 频 
索 项 集 的 绿 故 。 如 果 从 一 个 非 频 绽 项 集中 生成 规划 ,那么 这 些 计数 将 会 非 第 小 ; 因此 ， 这 个 相对 
数值 便 会 野 无 意义 (或 者 受到 大 误差 八 的 影响 )。 

注意 ， 从 这 个 数据 集 里 已 经 找到 了 很 多 关联 规则 ; 一 共有 1030 个 规则 ， 具 有 最 小 文 持 度 80 
以 及 最 小 提升 度 5。 和 现在 的 互联 网 比 起 来 ， 这 仍然 是 一 个 小 规模 数据 集 ; 当 你 进行 上 百 万 次 交 
易 的 时 候 ， 你 可 以 生成 成 干 上 万 其 至 百 万 的 规则 。 

然而 , 具体 到 每 一 个 客户 , 在 任何 时 间 里 都 只 有 一 小 部 分 是 跟 他 们 有 关 的 , 所 以 每 个 客户 只 
会 收 到 少量 推荐 信息 。 



































8.2.4 更 多 购物 篮 分 析 的 高 级 话题 


在 购物 篮 分 析 中 还 有 很 多 其 他 算法 要 比 Apriori 运 行 得 更 快 。 我 们 之 前 看 到 的 代码 比较 简单 ， 
但 对 我 们 而 言 已 经 足够 好 了 , 因为 我 们 大 约 只 有 10 万 个 交易 数据 。 如 末 你 有 上 百 万 的 数据 , 那么 
就 值得 使 用 更 快 的 算法 ( 尽管 对 多 数 应 用 来 说 ,学 习 关 联 规则 的 过 程 可 以 在 线 下 运行 )。 
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还 有 一 些 方法 会 利用 时 间 信 息 , 把 购买 的 顺序 也 考虑 进来 。 可 以 用 一 个 极端 例子 来 解释 这 样 
做 的 用 处 。 比 如 某 人 正在 购买 一 个 大 型 聚会 所 需 的 用 品 ， 严 完 聚会 用 品 后 , 他 可 能 会 意识 到 还 要 
买 一 些 垃 瓜 袋 。 因 此 如 采 在 他 第 一 次 购物 的 时 候 就 给 他 提供 垃圾 袋 ， 这 是 说 得 通 的 。 但 是 ,为 
个 购买 垃圾 袋 的 人 都 提供 聚会 用 品 ， 却 是 这 无 赴 理 的 。 

你 可 以 在 Python 开源 实现 〈 一 种 新 的 BSD 许 可 证 ， 跟 Scikit-leam 一 样 ) 中 找到 一 个 叫做 
pymining 的 程序 包 。 这 个 包 是 由 Barthelemy Dagenais 开 发 的 , 在 https://github.com/bartdag/pymining 
可 以 获取 到 。 














8.3 ”小结 


本 革 开 始 于 改进 前 一 革 中 的 评分 预测 。 我 们 看 到 了 一 些 不 同 的 方式 , 然后 通过 学 习 一 组 权重 
把 它们 组 合 到 一 起 , 得 到 一 个 单独 的 预测 。 这 种 技术 叫做 集成 学 习 或 栈 式 学 习 。 它 是 一 个 在 很 多 
情况 下 都 可 以 使 用 的 通用 技术 , 并 不 只 是 在 回归 问题 里 起 作用 。 这 种 方式 允许 你 把 不 同 的 想法 融 
合 到 一 起 ， 即 使 它们 的 内 部 机 制 完全 不 同 ; 你 可 以 把 它们 的 最 终 输 出 组 合 起 来 。 


在 8.27 ， 我 们 改 弦 更 张 ， 转 回 必 一 种 推荐 方法 : 购物 篮 分 析 或 天 联 规则 控 握 。 在 这 个 模式 
下 ， 我 们 尝试 ( 基于 概率 ) 发 据 形 如 “购买 了 X 的 客户 可 能 对 Y 也 感 兴趣 ”这 样 的 关联 规则 。 这 
种 方式 充分 利用 了 交易 信息 本 号 的 数据 ， 而 不 需要 让 用 户 对 商品 用 数 和 学 打分 数 。Scikit-leam 里 没 
有 这 种 方法 ， 所 以 我 们 用 日 己 的 代码 实现 了 一 个 。 

使 用 关联 规则 挖 气 需 要 并 慎 , 不 能 人 简单 为 每 个 用 户 推 荐 热 销 商品 。( 否则 , 个 性 化 在 哪里 ? ) 
要 达到 这 个 目标 , 我 们 学 习 了 如 何 利用 规则 提升 度 来 衡量 规则 的 价值 。 在 下 一 章 , 我 们 将 构建 一 
个 音乐 体裁 分 类 骨 。 
































分 类 川 ， 痛 乐 体 裁 分 尖 


到 目前 为 止 , 我 们 均 假 定 任 何 训练 样本 都 很 容易 用 特征 回 量 来 措 述 , 这 种 情况 其 实 比较 “ 奢 
侈 ”。 例 如 在 Iris 数 据 集 里 ， 花 朱 可 以 用 包含 花 赤 特定 方位 的 长 度 和 宽度 的 向 量 来 表示 。 在 基于 文 
本 的 例子 中 ， 我 们 可 以 把 文本 转换 为 词 袋 表示 形式 ， 并 人 工 构 建文 本 特定 方面 的 特征 。 


然而 在 本 半 ， 当 我 们 尝试 对 歌曲 进行 体裁 分 类 的 时 候 , 情况 将 不 太一 样 。 例如， 我们 该 如 何 
表示 一 段 3 分 钟 长 的 歌曲 呢 ? 是 否 应 该 用 MP3 数 据 的 每 个 比特 来 表示 呢 ? 这 大 概 是 不 行 的 ， 因 为 
把 它 当做 文本 来 构建 “声音 比特 袋 ”这样 的 东西 ， 一 定 会 过 于 复杂 。 但 我 们 必须 以 某 种 方式 把 歌 
曲 转 换 成 一 些 足以 描述 它 的 值 。 








9.1 ”路线 图 概述 


本 章 将 会 告诉 我 们 如 何在 舒适 区 之 外 构建 优秀 的 分 类 器 。 对 这 个 问题 ， 我 们 必须 使 用 基于 
声音 的 特征 。 这 比 之 前 用 到 的 基于 文本 的 特征 要 复杂 得 多 。 我 们 还 必须 学 会 如 何 处 理 多 个 类 别 ， 
虽然 到 目前 为 止 我 们 遇 到 基本 上 的 都 是 二 分 类 问题 。 另 外 ， 我 们 还 将 了 解 一 些 评估 分 类 效果 的 
新 方式 。 

让 我 们 假设 这 样 一 个 场景 : 从 自己 的 硬盘 里 找 一 些 随 机 命名 的 MP3 文 件 , 它们 都 是 音乐 ， 然 
后 我 们 的 任务 就 是 对 它们 进行 分 类 ， 按 照 乐 曲 体裁 放 进 不 同 的 文件 夹 里 ， 例 如 事 士 乐 ( jazz )、 
古典 音乐 (classical )、 乡 村 首 乐 ( country )、 流 行 音乐 (pop )、 摇 深 乐 ( rock ) 和 金属 音 
乐 (metal )。 











9.2 ”获取 音乐 数据 


我 们 将 要 使 用 的 是 GTZAN 数 据 集 ， 它 是 一 个 经 常用 于 乐曲 体裁 分 类 任务 的 数据 集 。 它 把 音 
乐 分 成 10 种 体裁 。 为 了 简化 问题 ， 我 们 只 使 用 其 中 的 6 种 : 古典 、 荔 士 、 乡 村 、 流 行 、 抒 滚 和 人 金 
属 音乐 。 这 个 数据 集 包 含 每 种 体裁 100 首 乐曲 的 前 30 秒 的 数据 。 我 们 可 以 在 http://opihi.cs.uvic.ca/ 
sound/genres.tar.gz 下 载 这 个 数据 集 。 音 轨 是 22 050 Hz ( 每 秒 22 050 次 读 入 ) 单 声 道 WAV 格 式 的 。 
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转换 成 音频 格式 


确实 ， 如 采 想 要 在 我 们 的 MP3 集 合 上 测试 分 类 希 ， 我 们 并 不 能 获取 到 很 多 信息 。 这 是 因为 
MP3 是 一 种 有 损 音乐 压缩 格式 ， 它 把 人 耳 感知 不 到 的 部 分 都 截 掉 了 。 这 种 方式 有 利于 存储 ， 因 为 
用 MP3 格 式 你 可 以 把 10 倍 数量 的 歌曲 放 进 你 的 设备 。 然 而 ， 对 于 我 们 的 工作 来 说 ，MP3 格 式 并 不 
是 很 好 。 用 WAV 格 式 的 音乐 文件 进行 分 类 , 会 相对 容易 一 些 。 所 以 , 当 我 们 要 给 音乐 分 类 的 时 候 ， 
就 需要 转换 MP3 文 件 的 格式 。 

















» 如 果 你 没有 转换 工具 ， 你 可 以 看 一 下 sox: http://sox.sourceforge.net。 它 号 称 
首 频 处 理 中 的 瑞士 军刀 。 我 们 同意 这 个 大 胆 的 断言 。 


把 所 有 音乐 文件 转换 成 WAV 格 式 有 一 个 好 处 ， 那 就 是 它 可 以 特 接 利 用 SciPy 工 具 包 该 取 : 


>>> sample rate, X = scipy.io.wavfile.read (wave filename) 


在 这 里 ，X 包 含 的 是 样本 ， 而 sample_rate 就 是 音频 采样 的 速度 。 我 们 利用 这 些 信 息 浏 览 一 
下 音乐 文件 ， 来 获得 对 这 些 数 据 的 初步 印象 。 





9.3 ”观察 音乐 
要 快速 获得 对 不 同体 裁 乐 曲 的 印象 , 一 个 比较 便捷 的 方式 是 , 画 出 某 类 音乐 的 声 谱 图 。 声 谱 
是 音频 的 一 个 可 视 化 表示 方式 。 它 在 特定 时 间 段 (x 轴 ) 内 显示 出 音频 的 强度 (y 轴 ); 这 是 说 ， 
在 歌曲 的 某 个 时 间 和 窗 内 ， 颜 色 越 深 ,频率 越 强 。 
Matplotlib 提 供 了 一 个 方便 的 图 数 specgram() ,可 以 处 理 大 部 分 后 台 计 算 , 并 把 它们 画 出 来 : 


>>> import scipy 
>>> from matplotlib.pyplot import specgram 





>>> sample rate, X = scipy.io.wavfile.read (wave_ filename) 
>>> print sample rate, X.shape 

22050, (661794,) 

>>> specgram(X, Fs=sample rate, xextent=(0,30)) 


我 们 刚刚 读 取 的 波形 文件 是 以 22 050 Hz 的 频率 抽样 的 ,一共 包 含 了 661 794 个 样本 。 

如 果 把 各 式 各 样 的 波形 文件 的 前 30 秒 用 声 谱 图 画 出 来 ， 那 么 就 会 看 到 同一 体裁 乐曲 之 间 的 
共性 ， 见 下 页 图 。 

稍微 浏览 一 下 , 我 们 立刻 就 可 以 找 出 金属 音乐 和 古典 音乐 在 声 谱 图 里 的 差别 。 金属 音乐 在 大 
多 数 频 谱 里 都 有 一 个 很 高 的 强度 ( 有 活力 ! )， 而 古典 音乐 会 随 着 时 间 显 示 出 更 加 多 样 的 模式 。 


这 些 数 据 应 该 能 够 训练 出 一 个 分 类 融 , 至 少 可 以 以 足够 蜗 的 准确 率 区 分 出 金属 音乐 和 古典 音 
乐 。 而 其 他 两 两 体裁 之 间 ,， 例 如 乡村 和 抒 滚 ， 却 给 我 们 提出 了 更 大 的 挑战 。 对 我 们 而 言 ， 这 是 一 




















9.3 观察 音乐 141 


个 真正 的 挑战 ， 因 为 我 们 要 区 分 的 不 是 两 个 类 别 ， 而 是 6 个 。 我 们 需要 很 好 地 区 分 出 所 有 这 6 个 类 
别 才 行 。 
ES 了 Song 3 


jazz song1 jazz song 2 jazz song 3 


10 了 有 15 20 了 二,、 工本 20 
Seunne song 1 Country song SD song 3 


LO ,卫生 .2 a | 


Ppop Song. - POP SO9ng. 2 


二 
rock song 3 





将 音乐 分 解 成 正弦 波形 成 分 
我 们 的 计划 是 从 原始 样本 中 ( 储存 在 X 里 ) 提取 频率 强度 ， 并 把 它 传 进 分 类 需 。 这 些 频率 强 
度 可 以 通过 快速 傅 里 叶 变 换 (FastFourier Transform，FFT ) 得 到 由 于 FFT 背 后 的 理论 已 经 超出 


本 章 的 讨论 范围 ， 所 以 我 们 只 看 一 个 例子 ,对 它 所 做 的 事情 有 一 个 直观 认识 即 可 。 之 后 ,我 们 会 
把 它 当 做 一 个 黑 盒 式 的 特征 提取 人 各。 


例如 ,我 们 生成 两 个 波形 文件 : sine_a .wav 和 sine_b.wav ,它们 分 别 包 含 400 Hz 和 3000 Hz 
正 豆 波形 的 声 首 。 之 前 提 到 的 那个 瑞士 军刀 sox， 就 是 达到 这 个 目标 的 一 种 方式 : 


S sox --null -r 22050 sine a.wav synth 0.2 sine 400 
S sox --null -r 22050 sine b.wav synth 0.2 sine 3000 


下 面 这 个 图 表 显 示 了 前 0.008 秒 的 形状 。 同 时 我 们 也 看 到 这 个 正弦 波形 的 FFT。 上 达 不 奇怪 , 我 
们 在 对 应 的 正弦 波形 下 面 可 以 看 到 400 Hz 和 3000 Hz 的 峰值 。 


现在 让 我 们 把 它们 混合 起 来 ， 得 到 具有 3000 Hz 声音 一 半音 量 的 400 Hz 声音 


S sox --combine mix --volume 1 sine b.wav --volume 0.5 sine a.wav 
sine mix.wav 
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我 们 可 以 在 合成 声音 的 FFT 图 形 上 看 到 两 个 峰值 , 其 中 3000 Hz 峰值 的 大 小 几乎 是 400 Hz 峰值 
的 两 倍 : 


400Hz sine wave 


0.002 0.004 0.006 0.008 
time [S] 


FFT of 400Hz sine wave 


1000 2000 3000 1000 


frequency [Hz] 


3,000Hz sine Wave 


0.002 0.004 0.006 0.008 
time [S] 


FFT of 3,000Hz sine wave 


1000 2000 3000 1000 


frequency [Hz] 


Mixed sine wave 


0.002 0.004 0.006 UUUS 
time [S] 


FFT of mixed sine wave 


1000 2000 3000 1000 


frequency [Hz] 
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对 于 真实 首 乐 ， 我 们 很 快 就 可 以 看 到 ，FFT 的 形状 并 不 像 在 前 面 那 个 简单 例子 中 那样 漂亮 : 


DUHHI 
上 有 


some sample song 


2000 
i000 


DLN . : . 
LL DU.002 0.004 .Lo [hs 


time [S 


FFT of some sample song 


| O00 A000 3000 [O00 


frequency [Hz] 





9.4 用 FFT 构建 第 一 个 分 类 器 


现在 我 们 可 以 用 FFT 来 为 歌曲 构建 菜 种 音乐 指纹 了 。 如 果 对 一 些 歌曲 进行 处 理 ， 并 且 人 为 地 
把 对 应 的 体裁 当做 标签 ， 那 么 就 有 训练 数据 了 ， 人 然后 可 以 利用 它们 训练 一 个 初始 的 分 类 融 。 





9.4.1 增加 实验 敏捷 性 


在 对 分 类 内 进行 次 入 训练 之 前 ， 让 我 们 先 在 实验 敏捷 性 上 人 花 一 点 工大 。 尽 管 FFT 这 个 名 字 包 
含 词语 “fasf ， 但 它 要 比 基 于 文本 特征 的 构建 过 程 慢 很 多 。 由 于 我 们 仍然 处 于 实验 阶段 ， 所 以 需 
要 考虑 一 下 如 何 加 快 整个 特征 构建 的 过 程 。 


当然 ， 每 次 运行 分 类 器 的 时 候 ， 针 对 每 个 文件 构建 FFT 的 过 程 都 是 一 样 的。 因此 可 以 把 它 先 
绥 存 下 来 ， 之 后 直接 谈 取 绥 存 的 FFT 特 征 而 不 是 波形 文件 。 我 们 用 create_ftft () 函数 实现 这 个 
功能 ， 它 会 用 scipy .fft () 来 生成 FFT。 为 了 简单 性 ( 和 速度 ! )， 在 这 个 例子 中 我 们 把 FFT 成 分 
的 个 数 固 定 为 前 1000。 以 现 有 的 知识 ,我 们 并 不 知道 它们 对 于 音乐 体裁 分 类 是 否 是 最 重要 的 
只 是 因为 它们 在 之 前 的 FFT 例 子 中 显示 出 了 最 高 的 强度 。 如 果 之 后 想 使 用 更 多 或 更 少 的 FFT 成 分 ， 
那 当 然 需要 重新 构建 这 些 FFT 组 存 文件 。 

def create_fft(fn) : 


sample rate, X = scipy.1io.wavfile.read (fn) 
fft features = abs(scipy.fft(xX)[:1000]) 
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base fn, ext = os.path.splitext (fn) 
data_fn = base_ fn + ".fft" 
np.save (data fn, fft features) 


我 们 用 NumPy 的 save () 函数 来 保存 数据 。 它 总 会 在 文件 名 的 后 面 添加 .npy 后 缀 。 我 们 只 需 
要 对 每 个 用 于 训练 或 预测 的 波形 文件 保存 一 次 就 可 以 了 。 


对 应 的 FFT 读 取消 数 是 read_fft (): 


def read fft(genre list, base dir=GENRE DIR): 

xX = [ 

y = | 

for label, genre in enumerate(genre list): 
genre dir = os.path.join(base dir, genre, "*.fft.npy") 
file list = glob.glob (genre dir) 
for fn in file list: 

fft features = np.load (fn) 


xX.append (fft features[:1000]) 
y.append (label,) 


return np.array (X), np.array (y) 
在 音乐 目录 中 ， 我 们 预期 有 如 下 音乐 体裁 : 


genre list = ["classical", "Jazz", "country", "pop", "rock", "metal"] 


9.4.2 ”训练 分 类 器 


我 们 将 要 使 用 逻辑 回归 分 类 带 , 因为 它 在 情感 分 析 那 草 里 已 经 取得 了 很 好 的 效 灯 。 而 所 增加 
的 难度 在 于 ， 我 们 面临 的 是 一 个 多 分 类 问题 。 但 到 目前 为 止 ， 我 们 只 对 两 个 类 别 进行 过 区 分 。 








第 一 次 从 二 分 类 问题 切换 到 多 分 类 问题 的 时 候 , 有 一 个 让 人 感到 惊奇 的 地 方 ,就 是 正确 率 的 
估算 。 在 二 分 类 问题 中 ,我 们 已 经 学 过 ，50% 的 正确 率 是 最 差 的 结果 ， 因 为 它 跟随 机 猜测 没什么 
区 别 。 但 在 多 分 类 问题 中 ，50% 的 正确 率 可 能 已 经 非常 好 了 。 例 如 ， 在 我 们 的 6 个 体裁 中 ， 随 机 
清 测 只 能 得 到 16.7% 的 正确 率 ( 假设 每 个 类 别 的 样本 数目 相同 )。 











9.4.3 在 多 分 类 问题 中 用 混 泣 矩阵 评 佑 正确 率 


对 于 多 分 类 问题 , 我 们 不 应 该 把 关注 点 只 局 限 在 能 否 对 体裁 进行 正确 分 类 上 , 还 应 该 仔细 看 
一 下 那些 相互 混 消 的 类 别 。 这 可 以 使 用 混 消 和 矩 阵 ( confusion matrix ) 来 处 理 





>>> from sklearn.metrics import confusion matrix 
>>> cm = confusion matrix(y_test, y_pred) 
>>> print (cm) 
[[26 1 2 0 0 2] 
[4 7 5 0 5 3] 
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[ 1 214 2 8 3] 
[ 5 4 7 3 7 5] 
[ 0 0 10 2 10 121 
[ 1 0 4 0 13 121] 





它 打印 出 了 分 类 需 在 测试 集中 所 预测 的 每 个 类 别 的 标签 分 布 。 由 于 有 6 种 体裁 ， 所 以 我 们 就 
有 一 个 6 x 6 的 和 矩阵。 和 矩阵 的 第 一 行 是 在 说 , 在 31 首 古典 音乐 中 , 它 预测 出 有 26 首 乐曲 属于 古典 音 
乐 ，1 首 属于 项 士 乐 ， 两 首 属于 乡村 音乐 ， 还 有 两 首 属 于 金属 体裁 的 乐曲 。 符 阵 的 对 角 线 表示 正 
确 的 分 类 。 在 第 一 行 里 ， 我 们 看 到 在 31 首 乐曲 (26+1+2+2=31 ) 里 ， 有 26 首 被 正确 分 成 了 古典 体 
裁 ， 而 另外 $ 首 被 错误 分 类 。 这 个 结果 其 实 并 不 太 坏 。 但 第 二 行 就 更 加 让 人 人 警醒: 在 24 首 萎 士 乐 
曲 中 ， 只 有 4 首 被 正确 分 类 一 一 正确 率 仅 有 16%。 


当然 ， 我 们 遵循 了 前 一 半 中 的 训练 集 / 测 试 集 切 分 方式 ， 使 我 们 可 以 记录 下 每 一 折 交 又 验 证 
的 混 汪 矩阵。 我 们 之 后 还 会 对 数据 取 平 均值 ， 并 进行 归 一 化 ， 使 得 输出 的 结果 在 0 ( 完全 失败 ) 
到 1 (所 有 类 别 部 分 正确 ) 之 间 。 


可 视 化 图 形 通 第 要 比 NumPy 数 组 更 容易 读 懂 。Matplotlib 的 matshow() 就 是 我 们 的 老 朋 友 : 









































from matplotlib import pylab 


def plot confusion matrix(cm, genre list, name, title): 
pylab.clf() 
pylab.matshow(cm, fignum=False, cmap='Blues', vmin=0, vmax=1.0) 
ax = pylab.axes () 
ax.set xticks (range (len (genre list))) 
ax.set xticklabels (genre list) 
ax.xaxis.set ticks _ position("bottom") 
ax.sSet yticks (range (len (genre list))) 
ax.sSet yticklabels (genre list) 
pylab.title (title) 
pylab.colorbar () 
pylab.grid (False) 
pylab.xlabel('Predicted class') 
pylab.ylabel('True class') 
pylab.grid (False) 
pylab.show() 


当 你 构建 一 个 混 消 和 矩阵 的 时 候 ， 一 定 要 选择 彩色 图 形 (matshow() 的 cmap 参 数 ) 以 及 合适 
的 颜色 序列 ,这 可 以 让 浅 色 或 深 色 的 含义 立即 显示 出 来 。 我 们 建议 您 千 万 不 要 使 用 彩虹 彩 网 ， 例 
如 Matplotlib 默 认 的 “jet”， 或 者 “Paired” 彩 


最 后 得 到 的 图 形 如 下 所 未: 





Confusion matrix of an FFT based classifier 


a 和 i 


jazz 


贞 COUntry 


classical jazz Country pop rock maetal 


Predicted class 


对 于 一 个 完美 的 分 类 带 , 我 们 预期 从 左上 角 到 右 下 角 都 是 涤 色 的 方 格 ,， 而 剩 下 的 区 域 部 是 浅 
色 格 子 。 在 这 个 图 中 ， 可 以 立即 看 到 我 们 的 基于 FFT 的 分 类 货 离 完美 还 相差 其 过 。 它 只 能 正确 预 
测 吉 典 乐曲 ( 深 色 方 格 )， 而 别 的 首 乐 体裁 , 例如 摇滚 乐 ， 多 数 时 间 会 被 它 错误 地 分 类 为 金属 乐 。 

很 明显 ,使 用 FFT 是 正确 的 方向 ( 十 典 体裁 的 效果 还 不 错 )， 但 这 还 不 足以 得 到 一 个 效果 很 
好 的 分 类 右 。 毫 无 疑问 ， 我 们 可 以 调整 一 下 FFT 成 分 的 个 数 ( 之 前 固定 为 1000 )。 但 是 在 深入 参 
数 调 优 之 前 ， 我 们 应 该 进行 一 点 调研 。 我 们 发 现 FFT 对 于 体裁 分 类 确实 是 一 个 不 错 的 特征 一 一 只 
是 它 还 没有 足够 调 优 。 之 后 ， 我 们 就 会 看 到 如 何 通 过 处 理 后 的 特征 来 提升 分 类 歼 末 。 


然而 ， 在 这 之 前 ， 我 们 将 学 习 万 外 一 个 衡量 分 类 效果 的 方法 。 


























9.4.4 另 一 种 方式 评估 分 类 器 效果 : 受 试 者 工作 特征 曲线 (ROC) 


我 们 已 经 学 过 ， 正 确 率 并 不 一 定 就 能 反映 出 一 个 分 类 带 的 真正 效果。 相反 ， 依 徘 准确 - 则 回 
曲线 ， 可 以 对 分 类 带 的 效果 有 一 个 更 深入 的 了 解 。 


这 里 有 一 个 准确 -召回 曲线 的 姊妹 标准 ， 叫 做 受 试 者 工作 特征 曲线 (Receiver Operator 
Characteristic，ROC )。 它 也 衡量 了 分 类 各 的 类 似 方面 , 但 它 对 分 类 效果 提供 了 男 外 一 种 观点 。 它 
们 之 间 最 主要 的 区 别 在 于 ，PAR 曲 线 更 适合 正 类 别 比 负 类 别 更 重要 的 任务 ， 或 者 说 正 例 数目 比 负 
例 数 目 小 得 多 的 任务 。 信 息 检索 或 欺诈 检测 就 是 它 的 典型 应 用 领域 。 男 一 方面 ,ROC 曲线 对 分 类 
大 的 一 般 效 末 提 供 了 一 个 更 好 的 描绘 。 


要 更 好 地 理解 它们 之 间 的 差别 ， 主 我 们 看 看 之 前 训练 好 的 乡村 音乐 分 类 俘 的 效 末 : 
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_P/R curve (AUC=0.30) / country vs rest ROC curve (AUC = 0.68) / country vs rest 
| : : : : : : I 
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Recall False Positive Rate 


在 左边 那 张 图 中 ， 我 们 看 到 的 是 RAP 曲 线 。 对 于 一 个 理想 的 分 类 需 ， 曲 线 将 会 直接 从 左上 角 
到 右上 角 ， 再 到 右 下 角 。 得 到 的 曲线 下 面积 ( Area Under Curve，AUC ) 为 1.0。 


右边 那个 图 描绘 的 是 与 之 相应 的 ROC 曲 线 。 它 刻画 的 是 真正 率 与 假 正 率 之 间 的 关系 。 这 里 ， 
对 于 一 个 理想 的 分 类 需 ， 曲 线 会 从 左下 角 到 左上 角 ,， 然后 再 到 右上 角 。 而 一 个 随机 分 类 需 会 有 一 
条 从 左下 角 到 右上 角 的 直线 。 如 图 中 的 虚线 所 示 ， 它 具有 0.5 的 AUC。 因 此 ,我 们 不 能 拿 P/R 曲 线 
的 AUC 和 ROC 曲 线 的 AUC 直 接 做 比较 。 


在 比较 两 个 不 同 分 类 需 在 同一 个 数据 集 上 的 将 有 末 时 ， 我 们 可 以 假定 PR 曲线 具有 较 遍 AUC， 
这 意味 着 它 所 对 应 的 ROC 曲 线 也 具有 较 高 的 AUC , 而 反之 亦 然 。 因 此 , 我 们 不 需要 生成 两 个 曲线 。 
更 多 这 方面 的 信息 可 以 在 一 篇 非常 有 见解 的 论文 中 了 解 到 : The Relationship Between Precision- 
Recall and ROC Curves, Jesse Davis and Mark Goadrich, ICML 2006。 


























x 轴 y 轴 
P/R TP TP 
五 同志 二 准确 变 人 
四 尝 一 TDHEN 储 确 率 TP+FP 
ROC 
PPR TPR -下 
FP+TN TP+FN 


在 曲线 x 轴 和 y 轴 的 定义 中 ， 我 们 可 以 看 到 ，ROC 曲 线 y 轴 的 真正 率 (true positive rate ) 与 P/R 
图 x 轴 的 Recall (家 回 率 ) 是 相同 的 。 

假 正 率 衔 量 了 在 真 负 样本 中 被 铺 误 识 别 成 正 例 的 比例 。 它 在 完美 情况 下 是 0( 没有 假 正 样本 )， 
否则 是 1。 对 比 Precision (准确 率 ) 曲线 ， 我 们 得 到 的 结果 正好 相反 ， 它 是 在 真正 样本 中 被 正 
确 分 类 样本 的 比例 。 


今后 , 我 们 将 使 用 ROC 曲 线 进行 评估 , 使 我 们 对 分 类 需 性 能 有 一 个 更 好 的 认识 。 在 多 分 类 问 
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是 中 ， 唯 一 的 挑战 就 是 ，ROC 和 RR 曲线 所 假定 的 是 二 分 类 问题 。 要 达到 我 们 的 日 标 ， 让 我 们 为 
每 个 类 别 创建 一 个 图 表 ， 显 示 出 分 类 带 在 “1 vs. 剩余 类 别 ” 分 类 中 的 效果 。 








y_pred = clf.predict (xX test) 


for label in labels: 
y_label test = np.asarray (y_test==label, dtype=int) 
proba = clf.predict proba (xX test) 
proba label = probal[l:,1labell 
fpr, tpr, roc thresholds = roc curve(y_label test, proba label,) 
# 元 出 tpr 与 fpr 之 间 的 关系 
i 


我 们 一 共 得 到 了 6 个 ROC 曲 线 ， 如 下 页 图 所 示 。 正 如 我 们 已 经 发 现 的 那样 ， 第 一 版 的 分 类 各 
只 在 古典 乐曲 的 分 类 中 效果 比较 好 。 然 而 ,看 一 下 其 中 的 每 一 个 ROC 曲 线 ， 就 可 以 知 违 我 们 在 
其 他 大 多 数 类 别 中 的 效果 实在 不 佳 。 只 有 茵 士 和 乡村 类 别 有 一 些 希 望 。 而 璋 下 的 类 别 很 明显 还 不 
可 用 。 


























9.5 用 梅 尔 倒 频 谱系 数 (MFCC) 提升 分 类 效果 


我 们 已 经 知道 ，FFT 是 正确 的 方向 ， 但 是 它 还 不 能 确保 我 们 最 终 能 得 到 一 个 分 类 硕 ， 能 成 功 
地 把 含有 多 种 体裁 乐曲 的 目录 整理 成 含有 单一 体裁 乐曲 的 目录 。 不管 怎样 , 我们 都 需要 一 个 更 高 
级 的 分 类 佛 。 


在 这 一 点 上 , 多 做 一 点 研究 肯定 是 明智 的。 其 他 人 过 去 可 能 也 碰 到 过 同样 的 难题 ,并且 已 经 
找到 新 的 解决 方法 ， 这 对 我 们 也 会 有 所 帮助 。 确 实 ， 甚至 有 一 个 每 年 举行 的 会 议 ， 专门 研究 首 乐 
体裁 分 类 问题 。 这 个 会 议 是 由 音乐 信息 检索 国际 协会 (International Society for Music Information 
Retrieval，ISMIR ) 组 织 的 。 很 明显 ， 自 动 音 乐 体 裁 分 类 (Automatic Music Genre Classification ， 
AMGC ) 是 音乐 信息 检索 (Music Information Retrieval，MIR ) 的 一 个 子 领 域 。 浏 览 了 一 些 AMGC 
的 论文 之 后 ， 我 们 发 现 那 里 有 很 多 自动 体裁 分 类 方面 的 工作 ， 可 能 有 所 帮助 。 


有 一 个 技术 似乎 已 经 成 功 应 用 在 很 多 工作 中 了 ， 它 叫做 梅 尔 倒 频 谱系 数 (Mel Frequency 
Cepstral Coefficient，MFCC )。 梅 尔 倒 频谱 ( Mel Frequency Cepstrum，MEFC ) 会 对 声音 的 功率 谱 
进行 编码 。 它 是 通过 对 信号 谱 的 对 数 进行 傅 里 叶 变换 计算 得 到 的 。 如 采 你 觉得 它 听 起 来 过 于 复杂 ， 
那么 简单 记 住 “cepstrum” 这 个 名 字 即 可 ， 它 源 目 “spectrum”， 前 4 个 字母 是 倒序 的 。MFC 已 经 
成 功 应 用 于 对 话 与 发 言 者 的 识别 。 让 我 们 看 看 在 我 们 的 例子 里 是 否 也 能 使 用 它 。 
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ROC curve (AUC = 0.93) / classical vs rest ROC curve (AUC = 0.73) / jazz vs rest 
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ROC curve (AUC = 0.68) / country vs rest ROC curve (AUC = 0.26) / pop vs rest 
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ROC curve (AUC = 0.57) / rock vs rest ROC curve (AUC = 0.61) / metal vs rest 
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华 运 的 是 , 其 他 人 曾经 和 我 们 有 一 样 的 需求 , 并 且 已 经 发 布 了 一 个 实现 , 叫做 Talkbox SciKit。 
我 们 可 以 从 https://pypi.python.org/pypi/scikits.talkbox 安 装 。 之 后 ， 我 们 可 以 调用 mfcc () 男 数 ， 它 
会 计算 出 MFC 系 数 ， 如 下 所 示 : 


>>>from scikits.talkbox.features import mfcc 


>>>sample rate, X = scipy.io.wavfile.read (fn) 
>>>ceps, mspec, spec = mfcc (Xx) 

>>> print (ceps.shape) 

(4135, 13) 





用 于 分 类 的 数据 存储 在 ceps 里 ， 它 对 歌曲 (文件 名 为 ) 的 4135 帧 中 的 每 一 帧 都 有 13 个 系 
数 (mfcc () 函数 里 aceps 人 参数 的 殉 认 值 ) 如 果 使 用 所 有 数据 ， 将 会 奈 垮 我 们 的 分 类 大 。 相 反 ， 
我 们 可 以 取 每 个 系数 在 所 有 帧 中 的 平均 值 。 假设 每 首 歌 曲 的 开始 和 结束 部 分 ， 和 中 间 部 分 相 比 跟 
体裁 相关 的 可 能 性 很 小 ， 我 们 可 以 忽略 前 后 10% 的 内 容 。 





x = np.mean(ceps[int (num ceps*1/10) :int (num ceps*9/10)], axis=0) 


确实 ,我 们 要 使 用 的 评比 数据 集 ， 只 包含 每 首 歌 曲 的 前 30 秒 ， 所 以 我 们 无 需 把 后 10% 的 内 容 
切 控 。 不 过 我 们 仍然 会 做 这 个 处 理 , 这样 可 以 使 我 们 的 代码 也 能 在 其 他 的 数据 集 上 工作 ， 而 其 他 
数据 集 很 可 能 并 没有 做 这 样 的 截断 。 

与 之 前 的 FFT 工 作 类 似 ， 我 们 肯定 还 会 把 生成 的 MFCC 特 征 绥 存 起 来 ， 并 在 每 次 训练 分 类 各 
的 时 候 直 接 读 取 ， 而 不 用 再 重新 生成 。 


这 就 得 到 了 如 下 代码 : 














def write ceps (ceps, fn): 
base_ fn, ext = os.path.splitext (fn) 
data fn = base fn + ".ceps" 
np.save (data fn, ceps) 
print ("Written %s" % data fn) 


def create ceps (fn): 
sample _ rate, X = scipy.io.wavfile.read (fn) 
ceps, mspec, spec = mfcc (Xx) 
write ceps (ceps, fn) 


def read ceps (genre list, base dir=GENRE DIR): 
xX, Y= [], |{] 
for label, genre In enumerate (genre list): 
for fn in glob.glob(os.path.joinl( 


base dir, genre, "*.ceps.npy")): 
ceps = np.load (fn) 
num ceps = len (ceps) 


X.append (mnp .mean ( 
ceps[int (num ceps*1/10):int (num ceps*9/10)], axis=0)) 
y.append (label,) 


return np.array (X), np.array (y) 
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我 们 使 用 一 个 每 首 歌曲 只 有 13 个 特征 的 分 类 各， 得 到 了 如 下 很 有 希望 的 结果 ， 如 下 图 所 示 : 
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ROC curve (AUC = 0.99) / classical vs rest ~ ROC curve (AUC = 0.83) / jazz vs rest 
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ROC curve (AUC = 0.87) / country vs rest ~ ROC curve (AUC = 0.97) / pop vs rest 
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所 有 类 别 的 分 类 效 朱 都 提升 了 。 疾 士 和 金属 类 别 甚至 几乎 达到 了 1.0 的 AUC。 确 实 ， 下 网 中 
的 混 酒 矩阵 现在 看 起 来 也 好 了 许多 。 我 们 可 以 很 清 芍 地 看 到 ， 冬 线 部 分 显示 出 , 分 类 带 能 够 在 多 
数 情况 下 把 体裁 分 正确 。 这 个 分 类 融 对 于 解决 我 们 最 初 的 任务 十 分 有 用 。 











Confusion matrix of a CEPS based classifler 


classical 国 | 


jazz 


COUntry 


classical jazz Country pop rock metal 


predicted class 


如 果 我 们 想 要 在 这 个 结 采 的 基础 上 继续 提升 ， 温 清和 矩阵 可 以 快速 告诉 我 们 需要 专注 于 哪里 . 
非 对 角 线 区 域 的 非 日 色 格 子 。 例 如， 我 们 有 一 个 深 色 格 子 ， 在 那里 把 曙 士 乐曲 错误 地 分 类 成 播 深 
乐曲 的 可 能 性 很 大 。 要 想 修正 这 个 问题 , 我 们 可 能 需要 更 深入 人 研究 这 些 乐曲 ,抽取 出 诸如 市 拍 模 
式 ， 以 及 类 似 的 与 具体 体裁 相关 的 性 质 。 同 样 ， 在 浏览 ISMIR 论 文 的 时 候 ， 你 可 能 也 读 到 了 关于 
Auditory Filterbank Temporal Envelope ( AFTE ) 的 特征 。 它 在 某 些 情况 下 似乎 比 MFCC 特 征 更 好 。 
也 许 我 们 也 应 该 试 一 下 这 些 特征 ? 


个 好 消息 是 , 有 了 ROC 曲 线 和 混 清 矩阵 , 我 们 可 以 目 由 地 把 其 他 专业 知识 (以 特征 提取 带 
形式 ) 引 入 进来 , 而 不 需要 完全 理解 它们 的 内 部 工作 原理 。 评 佑 工具 总 能 告诉 我 们 方向 是 否 正确 ， 
是 否 需要 改变 方向。 当然 ， 作 为 一 个 爱好 学 习 的 机 带 学 习 初 学 者 ， 我 们 总 有 一 种 朋 胱 的 感 党, 那 
怠 是 一 个 令 人 激动 的 算法 正 埋 藏 在 特征 提取 带 的 墨盒 子 中 ， 只 是 等 待 我 们 去 理解 它 而 已 。 


























9.6 ”小结 


在 本 革 里 , 构建 音乐 体裁 分 类 融 的 时 候 , 我 们 已 经 从 舒适 区 域 走 了 出 来 。 在 刚 开始 并 没有 深 
入 理解 首 乐 理论 的 情况 下 ， 我 们 用 FFT 训 练 分 类 疾 来 预测 歌曲 体裁 ， 却 没有 获得 一 个 合格 的 正确 
率 。 但 之 后 我 们 用 MFC 特 征 构 建 出 的 分 类 天 ， 就 显示 出 了 真正 可 用 的 效 末 。 


在 这 两 种 情况 下 ， 我 们 只 知道 如 何 把 这 些 特征 放 和 人 分 类 需 以 及 放 在 哪里 。 结 采 一 个 失败 了 ， 
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而 另 一 个 成 功 了 。 它 们 之 间 的 差异 在 于 , 在 第 二 种 情况 下 ,我 们 所 依赖 的 是 由 这 个 领域 的 专家 所 
构建 的 特征 。 

这 是 完全 可 以 的 。 如 末 我 们 主要 是 对 绪 采 感 兴趣 , 那么 有 时 可 以 简单 采取 这 种 捷径 一 一 个 过 
必须 确保 这些 捷径 来 目 于 特定 领域 的 专家 。 由 于 已 经 学 过 如 何 正确 评估 多 分 类 问题 的 性 能 , 因此 
我 们 对 于 采用 这 种 捷径 是 有 信心 的 。 

下 一 草 介 绍 如何 把 学 到 的 技术 应 用 到 特定 类 型 的 数据 上 。 我 们 将 学 习 如 何 使 用 mahotas 计 算 
机 视觉 包 里 的 传统 图 像 处 理 函 数 ， 以 便 对 图 像 进 行 预 处 理 。 




















计算 机 视 锅 : /模式 识 








在 工业 应 用 中 , 图 像 分 析 和 计算 机 视觉 一 二 神 很 重要 。 随 春 带 有 摄像 头 的 于 机 和 互联 网 的 流 
行 ， 用 户 将 不 断 上 传 图 像 和 视频 。 所 以 ， 这 正 是 利用 上 述 技术 提升 用 户 体验 的 好 机 会 。 

在 本 草 ， 我 们 将 看 到 如 何 把 学 到 的 技术 应 用 到 特定 类 型 的 数据 上 ， 学 习 使 用 mahotas 计 算 机 
视觉 包 里 的 传统 图 像 处 理 函 数 ， 对 图 像 进行 预 处 理 。 这 些 技 术 可 以 用 于 数据 预 处 理 、 品 声 消 除 、 
图 像 清理 、 对 比 度 拉 伸 ， 以 及 其 他 简单 任务 。 


我 们 还 会 看 到 如 何 从 图 像 里 提取 特征 ; 然后 把 这 些 特征 当做 输入 数据 , 用 于 我 们 从 其 他 章 里 
学 到 的 那些 分 类 方法 。 我 们 将 会 把 这 些 技术 应 用 到 一 些 公开 的 照 帮 数据 集 上 。 





10.1 图 像 处 理 简介 


从 计算 机 的 角度 来 看 , 一 张 图 像 就 是 一 个 较 大 的 长 方形 像素 数组 。 我 们 布 望 对 这 张 图 瞩 进 行 
处 理 ， 得 到 一 张 新 的 或 更 好 的 图 片 〈 可 能 含有 较 少 的 噪声 或 者 是 羽 外 一 个 样子 )。 这 就 是 通 秆 所 
说 的 图 像 处 理 。 我 们 可 能 还 和 希望 由 这 个 数组 出 发 ,得 到 与 应 用 相关 的 决 宁 ,也 就 是 所 谓 的 计算 机 
视觉 。 很 多 人 无 法 把 这 两 个 领域 分 清楚 ， 但 这 就 是 通常 用 来 搬 述 它们 的 术语 。 


第 一 步 是 从 磁盘 里 读 取 图 像 。 它 们 通常 是 以 PNG 或 JPEG 格 式 存 储 的。 前 者 是 一 种 无 损 压缩 
格式 ,而 后 者 是 一 种 有 损 压 红 格 式 ， 是 为 图 片 的 主观 欣 芝 价值 而 进行 优化 的 。 然 后 ， 我 们 希望 对 
图 像 进行 预 处 理 ( 例如 ， 根 据 光 照 变化 对 图 像 进行 归 一 化 )。 


我 们 把 分 类 问题 当做 本 革 的 驱动 力 。 我 们 想 要 学 习 一 个 支持 问 量 机 (或 其 他 ) 分 类 天 ,用 它 
来 对 图 像 分 类 。 而 在 应 用 机 各 学 习 方 法 之 前 ,我 们 会 先 从 图 像 里 提取 数值 特征 ， 并 把 它们 当做 图 
像 的 一 种 中 间 表 示 方 式 。 

最 后 , 在 本 草 的 末尾 , 我 们 会 学 习 一 下 图 像 的 局 部 特征 (这 个 新 家 族 里 的 第 一 个 方法 就 是 尺 
度 不 变 特 征 变 换 ， 即 Scale-Invariant Feature Transform， 缩 写 为 SIFT， 开 发 于 1999 年 )。 这 些 都 是 
比较 新 的 方法 ， 而 且 已 经 在 很 多 应 用 中 取得 了 良好 的 效果 。 
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10.2 读 取 和 显示 图 像 


为 了 对 图 像 进 行 操 作 , 我 们 会 使 用 一 个 叫做 mahotas 的 程序 包 。 它 是 一 个 开源 程序 包 ( 经 MIT 
许可 ， 它 可 以 用 在 任何 项 目 里 )， 是 由 本 书 的 一 个 作者 开发 出 来 的 。 蔡 运 的 是 ， 它 是 基于 NumPy 
的 。 所 以 到 目前 为 止 你 所 擎 握 的 NumPy 知 识 都 可 以 用 于 网 像 处 理 。 这 里 还 有 其 他 图 像 包 ， 如 
Scikit-image ( Skimage )，SciPy 中 的 ndimage(n 维 图 像 ) 模块 ， 以 及 OpenCV 中 的 Python 绑 定 。 所 
有 这 些 都 原生 文 持 NumPy， 所 以 你 可 以 把 来 目 不 同 程序 包 的 印 数 混合 在 一 起 使 用 。 


我 们 从 引入 mahotas 开 始 ， 在 本 章 中 用 mh 这 个 缩写 来 表示 它 : 








import mahotas as mh 
现在 用 imread 读 取 一 个 图 像 文 件 : 
image = mh.imread('imagefile.png') 


如 条 imagefile.phg 包 含 的 是 一 个 高 为 hn 宽 为 w 的 彩色 图 像 ， 那 么 image 就 是 一 个 形 为 (h,w, 3) 
的 数组 。 第 一 维 是 高 度 ， 第 二 维 是 宽度 ， 第 三 维 是 红色 /绿色 / 蓝 色 。 其 他 系统 可 能 会 把 宽度 放 在 
第 一 维 , 但 这 是 一 个 数学 上 的 惯例 , 所 有 基于 NumPy 的 程序 包 都 是 这 样 使 用 的 。 数 组 元 素 的 类 型 
通常 是 np .unit8( 8 位 无 符号 整数 ) 这 就 是 你 的 照相 机 所 拍摄 的 或 显示 融 全 屏 所 能 显示 的 图 像 。 


然而 ,一 些 专业 设备 (主要 是 在 科学 领域 ) 会 招 出 更 高 分 辩 率 的 图 像 。 一 般 是 12 位 或 16 位 。 
mahotas 可 以 处 理 所 有 这 些 图 像 ， 包 括 浮 点 数值 的 图 像 。( 并 不 是 所 有 操作 对 于 浮 点 数 都 有 音义 ， 
但 如 果 要 这 样 做 , mahotas 也 都 可 以 支持 。) 在 很 多 计算 中 , 即使 原始 数据 里 包含 的 是 无 符号 整数 ， 
把 它们 转化 为 浮 点 数 也 是 有 用 处 的 ， 这 样 可 以 简化 对 舍 人 和 洲 出 问题 的 处 理 。 























mahotas 可 以 使 用 各 种 不 同 的 输入 /输出 后 端 。 但 不 幸 的 是 ， 它 们 不 能 读 取 所 
>》 有 现 有 的 图 像 格式 ( 有 几 百 种 格式 ， 每 一 种 又 有 一 些 变种 )。 但 是 ， 它 们 都 支持 
对 PNG 和 JPEG 图 像 的 读 取 。 所 以 我 们 只 聚焦 在 这 些 常 见 格式 上 。 对 于 不 常见 格 

式 的 读 取 ， 你 可 以 参考 mahotas 的 文档 。 


mh .imread 的 返回 值 是 一 个 NumPy 数 组 ,这 意味 着 你 可 以 使 用 标准 NumPy 据 数 来 处 理 图 像 。 
例如 ,从 图 像 里 减 去 像素 均值 通常 是 很 有 用 处 的 操作 。 它 有 助 于 在 不 同 光 照 条 件 下 对 图 像 进行 归 
一 化 ， 这 个 操作 可 以 用 标准 的 mean 方 法 来 实现 : 

















image = image - lmage.mean() 


我 们 可 以 用 matplot1lip 在 屏 闪 上 把 图 像 展示 出 来 。 这 个 绘图 工具 库 我 们 已 经 使 用 过 几 次 了 : 





from matplotlib import pyplot as plt 
plt.imshow (image) 
plt.show!() 
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这 张 图 像 休 循 了 是 第 一 维 高 度 、 第 二 维 宽 度 的 惯例 。 它 对 彩色 图 像 一 样 可 以 正确 处 理 。 在 使 
用 Python 进 行 数值 计算 的 时 候 ， 整 个 系统 都 能 很 好 地 协作 ， 这 使 我 们 受益 菲 浅 。 


10.2.1 图 像 处 理 基础 


我 们 从 一 个 特意 为 本 书 而 收集 的 小 规模 数据 集 开 始 。 它 有 3 个 类 别 : 建筑 物 、 上 自然 景色 ( 风 
景 )， 和 文字 图 像 。 每 一 类 里 有 30 份 图 像 ， 是 用 手机 摄像 头 担 摄 的 。 所 以 这 些 图 像 和 用 户 上 传 到 
网 站 的 那些 图 像 是 类 似 的 。 这 个 数据 集 可 以 从 本 书 的 网 站 上 获得 。 在 本 章 的 后 面 ,我 们 还 将 会 看 
到 一 个 更 加 困难 的 数据 集 ， 有 更 多 的 图 像 和 更 多 的 类 别 。 





这 个 建筑 物 是 该 数据 集中 里 一 张 图 像 。 我 们 拿 它 作为 一 个 例子 。 

也 许 你 已 经 意识 到 了 ,图 像 人 处理 是 一 个 很 大 的 领域 。 这 里 只 会 涉及 一 些 非常 基本 的 操作 。 有 
一 些 最 基本 的 操作 只 用 NumPy 就 可 以 实现 ,但 其 他 的 操作 我 们 将 使 用 mahotas。 

1. 阅 值 


卡 国 值 是 一 种 非 浓 简单 的 操作 : 我 们 对 像素 值 变换 ， 大 于 一 定 国信 的 是 1， 而 其 他 小 于 国信 
的 是 0 (或 者 用 Booleans， 把 它 转换 为 True 或 False ): 

binarized = (image > threshold value) 

我 们 需要 选择 阐 值 的 宽度 值 (代码 中 的 thresholg_value )。 如果 图 像 都 非常 相似 , 那么 我 


们 可 以 基于 统计 选择 一 个 , 并 把 它 应 用 于 其 他 所 有 图 像 ， 否则 必须 基于 像 系 值 对 每 瑟 图 像 痢 计算 
一 个 不 同 的 国 值 。 
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mahotas 实 现 了 一 些 选 择 靖 值 的 方法 。 其 中 一 个 叫做 Otsu， 它 是 以 它 的 发 明 者 命名 的 。 该 方 
法 的 第 一 个 必要 步骤 就 是 用 rgb2gray 把 图 像 转 换 为 灰 度 图 。 


除了 rgb2gray， 我 们 还 可 以 通过 调用 image .mean(2) 得 到 红 、 绿 、 蓝 通道 的 均值 。 然 而 ， 
它 的 结果 和 rgb2gray 并 不 相同 , 这 是 因为 gb2gray 对 不 同 的 颜色 使 用 了 不 同 的 权重 , 给 出 的 是 
一 个 在 主观 上 更 让 人 感到 愉悦 的 结果 。 我 们 的 眼睛 对 3 种 基本 色 的 敏感 程度 并 不 相同 。 


image = mh.colors.rgb2gray (image, dtype=np .uint8) 
plt.imshow (image) # 展示 图 像 


matplotlib 会 默认 把 这 个 单 通 道 图 像 显 示 为 假 彩色 图 像 ， 较 高 的 值 用 红色 ， 较 低 的 值 用 蓝 
色 。 对 于 目 然 图 像 ， 灰 度 图 则 更 为 适合 。 你 可 以 用 下 述 方法 调用 : 
Egg 


现在 图 像 显 示 成 灰 度 图 了 。 注意 只 有 像 系 值 的 解释 和 显示 方式 变化 了 , 这 幅 图 的 其 他 地 方 并 
没有 改变 。 我 们 可 以 继续 进行 处 理 ， 并 计算 国 值 : 


thresh = mh.thresholding.otsu (image) 
print (thresh,) 





























imshow (image > thresh) 


把 这 个 方法 应 用 到 前 面 那 张 图 的 时 候 ， 该 方法 发 现 了 国 值 164， 它 可 以 把 建筑 物 、 停 放 的 车 
辆 以 及 上 面 的 天 空 分 离 出 来 。 

















PA ET ym 


这 个 结 来 本 号 可 能 就 很 有 用 (如果 想 评 估 这 幅 国 值 图 的 一 些 属性 ), 它 也 可 以 用 于 后 续 处 理 。 
最 后 的 结 末 是 一 个 二 值 图 像 ， 可 以 用 于 选择 感 兴趣 的 区 域 。 
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这 个 结果 仍然 不 是 非常 好 。 我 们 可 以 在 这 幅 图 上 进行 一 些 操作 来 进一步 调 优 ,。 例如 , 我 们 可 
以 运行 close 操 作 需 ， 去 除 上 边 角 落 里 面 的 - 些 噪 声 : 





otsubin (image <= thresh,) 


otsubin mh.close(otsubin, np.ones((15,15))) 


在 这 里 , 我 们 是 在 把 低 于 阅 值 的 区 域 封 闭 起 来 , 我 们 也 可 以 把 这 个 羡 值 操作 反 过 来 做 , 在 反 
癌 图 中 进行 open 操 作 : 


otsubin 





(Image > thresh) 


otsubin mh.open(otsubin, np.ones((15,15))) 


不 管 哪 种 情况 ,这 个 操作 部会 对 一 个 结构 元 系 进行 处 理 , 该 元 系 定 义 了 我 们 要 关闭 的 区 域 的 
类 型 。 在 这 里 ， 我 们 使 用 的 结构 元 素 是 一 个 15 x 15 的 方块 。 











这 仍然 不 够 完美 , 因为 在 集 车 区 域 里 有 一 些 光 点 没有 去 挥 。 我 们 会 在 本 半 的 后 面 进一步 提升 
效 末 。 

Oftsu 国 值 可 以 把 天 空 区 域 识别 得 比 建筑 物 更 加 明 脖 。 另 一 种 国 值 方法 叫做 Ridley-Calvard 方 
法 (也 是 以 它 的 发 明 者 命名 的 ): 





thresh = mh.thresholding.rc (image) 
print (thresh,) 


该 方法 返回 了 一 个 更 小 的 国 值 137.7， 并 且 把 建筑 物 的 细节 区 分 了 出 来 。 
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这 样 是 好 是 坏 ， 取 决 于 你 想 区 分 出 什么 来 。 
2. 高 斯 模糊 


对 图 像 进行 模糊 化 似乎 有 点 奇怪 ， 但 它 经 党 被 用 于 降 噪 ， 可 以 对 后 续 的 处 理 有 所 帮助。 在 
mahotas 里 ， 只 需要 一 个 子 数 调用 即 可 : 





image = mh.colors.rgb2gray (image) 
im8 = mh.gaussian filter(image,8) 


注意 , 我 们 并 没有 把 灰 度 图 转化 为 无 符号 整数 ， 只 是 利用 了 浮 操 数 结 末 。gaussian_filter 哨 数 
的 第 二 个 参数 是 这 个 滤波 此 的 大 小 ( 滤波 如 的 标准 差 )。 较 大 的 值 会 导致 结 果 更 为 模糊 ， 如 我 们 
在 下 图 中 所 看 到 的 那样 ( 显示 出 了 大 小 为 8、16 和 32 的 滤波 效果 ): 
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我 们 可 以 对 左边 那个 图 用 Oftsu 国 值 卡 一 下 《〈 人 代码 和 之 前 一 样 )。 现 在 这 个 结果 就 是 建筑 区 域 
和 天 空 区 域 的 一 个 完美 划分 。 在 一 些 细 市 被 平滑 挥 的 同时 , 停车 区 域内 的 光 点 也 被 平滑 挥 了 。 这 
个 绪 果 是 天 空 的 近似 轮廓 ,不 存在 任何 伪造 。 通 过 模糊 化 ,我 们 把 和 总 体 布局 无 关 的 细节 都 去 掉 
了 。 看 看 下 面 这 张 网 : 











3. 不 同 效果 的 滤波 


通过 图 像 处 理 技术 获得 令 人 愉悦 的 图 像 效 果 , 可 以 追溯 到 数字 图 像 刚刚 出 现 的 时 候 。 但 在 最 
近 ， 它 已 经 变 成 了 很 多 有 趣 应 用 的 基础 ， 其 中 最 有 名 的 可 能 要 属 Instagram。 














| 


我 们 将 要 使 用 图 像 处 理 中 的 一 幅 传 统 图 像 ，Lenna 图 像 。 它 可 以 从 本 书 网 站 (或 其 他 很 多 图 
像 处 理 网 站 ) 下 载 : 


lm = mh.imread('lenna.Jpg', as_grey=True) 
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10.2.2 ”加 入 椒盐 噪声 


我 们 可 以 在 这 个 结果 上 进行 很 多 后 续 处 理 ， 如 果 我 们 愿意 的 话 。 例 如 , 我 们 可 以 在 图 像 里 加 
入 一 点 椒盐 噪声 ,来 模拟 扫描 噪点 。 我 们 生成 一 个 跟 原 始 图 像 相 同 宽度 高 度 的 随机 数组 。 其 中 只 
有 1% 的 值 是 True。 





salt = np.random.random(lenna.shape) > .975 

pepper = np.random.random(lenna.shape) > .975 

我 们 现在 添加 椒 ( 意思 是 几乎 为 黑色 的 值 ) 盐 ( 意思 是 几乎 为 白色 的 值 ) 品 
lenna = mh.stretch (lenna) 

lenna = np.maximum(salt*170, sep) 

lenna = np.minimum(pepper*30 + lenna* (~pepper), lenna) 


ee 0 当做 日 色 ，30 当 做 黑色 。 这 比 极 妆 值 255 和 0 要 平滑 一 些 。 然 而 ， 这 些 都 是 
页 ， 是 由 人 的 主观 选择 和 做 事 方式 决定 的 。 





聚焦 中 心 


最 后 这 个 例子 显示 了 如 何 把 Numpy 操 作 和 一 些 滤波 混合 起 来 , 得 到 一 个 有 趣 的 结果 . 我 们 从 0 
Lenna 图 像 开始 ， 并 把 它 切 分 成 几 个 颜色 通道 


im = mh.imread('lenna.jJpg') 
r,g,b = im.transpose(2,0,1) 


现在 我 们 分 别 对 这 3 个 通道 进行 滤波 ， 并 用 mh .as_rgb 构 建 出 一 个 合成 图 像 。 这 个 果 数 接 
收 3 个 二 维 数 组 ， 进 行 对 比 度 拉 伸 ， 并 把 每 个 二 维 数组 转换 为 一 个 8 位 整 型 数组 ， 然 后 把 它们 县 
放 起 来 : 
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xz12 = mh.gaussian filter(r, 12.) 
g12 = mh.gaussian filter(g, 12.) 
bl2 = mh.gaussian filter(b, 12.) 


im12 = mh.as_rgb (r12,912,b12) 


然后 我 们 从 中 心 到 边 中 将 两 个 略 片 混合 在 一 起 。 首 移 我 们 需要 构建 一 个 权重 数组 Ww， 它 包含 
每 个 像素 的 归 一 化 结 末 ， 这 和 是 每 个 像素 到 中 心 的 距离 : 


h,w 
Y,X 


我 们 使 用 了 np .mgrid 对 象 ， 它 返回 一 个 大 小 为 (nh,w) 的 数组 ， 里 面 的 值 分 别 对 应 于 7 和 x 
坐标 : 


Y = Y-h/2. # 中 心 在 h/2 

Y= Y/Y.max() # 归 一 化 到 -1 .. +1 
xX = X-w/2. 

X= XX/ X.max!() 


现在 用 一 个 高 斯 水 数 赋予 中 心 区 域 一 个 高 权重 : 


W = np.exp(-2.*(X**2+ Y**2)) 

# 再 次 归 一 化 到 0.. .1 

NW=W-Cmnl) 

Wa= W/ CBtpl() 

W = C[:,:,None] # 这 会 在 W 里 增加 一 个 虚设 的 第 三 维度 


注意 这 些 操作 是 如 何 通 过 NumPy 数 组 实现 的 , 它们 并 不 是 mahotas 特 有 的 方法 。 这 就 是 Python 
NumPy 生 态 系 统 的 一 个 优点 : 你 在 学 习 纯 机 可 学 习 方 法 时 所 学 到 的 所 有 操作 , 在 一 个 完全 不 同 的 
背景 下 ， 依 然 是 有 用 的 。 


最 后 ， 我 们 把 两 幅 图 像 组 合 起 来 ， 让 中 间 成 为 焦点 ， 让 边 上 较为 和 和 。 


ringed = mh.stretch(im*C + (1-C)xim12) 
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既然 你 已 经 7 了解 图 像 滤波 的 一 些 基本 技术 , 就 可 以 基于 它 生成 新 的 滤波 从 了 。 这 一 点 与 其 说 
是 一 种 技术 ， 还 不 如 说 是 一 种 艺术 。 


10.2.3 ”模式 识别 


在 对 图 像 进 行 分 类 的 时 候 ， 我 们 从 一 个 较 大 规模 的 数组 (包含 像素 值 ) 开始 。 如 今 ， 几 百 万 
像 系 的 图 像 已 经 很 管见 了 。 


我 们 可 以 把 所 有 这 些 数字 都 当做 特征 放 进 学 习 算 法 。 但 这 并 不 是 一 个 很 好 的 主意 。 因 为 每 个 
像素 (甚至 每 个 像 系 组 ) 和 最 终结 果 之 间 的 关系 是 非常 间接 的 。 相 反 ,， 传统 方法 是 从 图 像 中 计算 
特征 ， 然 后 把 这 些 特征 用 于 分 类 。 


有 一 些 方法 可 以 直接 对 像素 进行 操作 。 它们 有 特征 计算 子 模块 。 它们 其 至 试图 自动 从 图 像 里 
学 出 好 特征 。 这 些 都 是 当今 学 术 界 正在 人 赋 究 的 诛 题 。 





我 们 前 面 使 用 了 一 个 建筑 类 别 的 例子 。 这 里 还 有 一 些 文本 和 风景 类 别 的 例子 。 





模式 识别 就 是 图 像 分 类 
‘mw 


由 于 历史 的 原因 ， 图 像 分 类 又 叫做 模式 识别 。 然 而 它 就 是 将 分 类 方法 应 用 
于 图 像 。 自然， 图 像 也 有 它 自 己 的 特定 问题 ， 我 们 将 会 在 本 章 里 处 理 这 些 问题 0 


10.2.4 ”计算 图 像 特征 


采用 mahotas， 计 算 图 像 特征 就 变 得 非常 容易 。 有 一 个 子 模块 叫做 mahotas .features， 包 
含 了 一 些 特征 计算 函数 。 


一 个 很 沼 用 的 特征 集合 叫做 Haralick 纹 理 特征 。 和 特征 处 理 里 面 的 众多 方法 一 梓 ， 这 个 方法 
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也 是 以 它 的 发 明 者 命名 的 。 这 些 特征 是 基于 纹理 的 : 它们 会 对 平滑 的 图 像 和 带 有 模式 的 图 像 进 行 
区 分 。 用 mahotas 很 容易 计算 这 些 特征 : 


haralick features = np.mean(mh.features.haralick (image).,do) 


mh . features .haralick 国 数 返回 了 一 个 4x 13 数 组 。 第 一 维 代 表 计 算 特 征 的 4 个 可 能 方 回 
(上 、 下 、 左 、 右 )。 如 果 我 们 对 方向 不 感 兴趣 ， 那 可 以 采用 整体 方 癌 的 平均 值 。 基 于 这 个 因数 ， 
我 们 很 容易 构建 一 个 分 类 系统 。 

mahotas 里 还 实现 了 一 些 其 他 的 特征 集合 。 线 性 二 元 模式 ( linear binary pattern ) 是 另 一 个 基 
于 纹理 的 特征 集合 ， 它 对 光 完 变化 非 沼 健壮 。 男 外 还 有 一 些 其 他 类 型 的 特征 ,包括 局 部 特征 ， 在 
本 章 后 面 将 会 进行 讨论 。 

















特征 并 不 只 是 为 分 类 而 存在 


~ 基于 特征 对 百 万 像素 图 像 降 维 的 方法 ， 还 可 以 用 在 其 他 机 器 学 习 情 景 中 ， 

A 包括 聚 类 、 回 归 ， 或 维度 归 约 。 通 过 计算 几 百 个 特征 ， 然 后 在 结果 中 运行 降 维 
算法 ， 你 可 以 把 一 张 百 万 像素 的 图 像 变 成 少数 几 个 维度 的 特征 ， 你 构建 的 可 视 
化 工具 甚至 可 以 是 二 维 的 。 


有 了 这 些 特 征 ， 我 们 就 可 以 使 用 标准 的 分 类 方法 进行 分 类 ， 例 如 支持 向 量 机 : 


images = glob('simple-dataset/*.jpg') 

features = [|] 

labels = [| 

for lm in images: 
features.append (mh.features.haralick (im) .mean(0) ) 
labels.append(im[:-len('00.jpg')]) 

features = np.array (features) 

labels = np.array (labels) 


这 三 种 图 像 类 别 具 有 非常 不 一 样 的 纹理 。 建筑 物 图 像 有 清晰 的 边沿 , 以 及 颜色 相似 的 大 区 块 
( 像 系 值 很 少 恰好 一 样 , 但 差异 很 微小 )。 文本 图 像 是 由 很 多 人 鲜明 的 明暗 过 度 所 组 成 的 , 在 日 色 中 
有 一 些 较 小 的 赤色 区 域 。 目 然 风景 图 像 有 一 些 类 分 形 的 平滑 变化 。 因 此 ， 基 于 纹理 的 分 类 带 应 该 
可 以 做 得 不 错 。 不 过 由 于 数据 集 很 小 ， 我 们 用 逻辑 回归 只 得 到 了 79% 的 正确 座 。 














10.2.5 ”设计 你 目 己 的 特征 


图 像 特征 并 不 是 什么 神奇 的 事情 。 它 就 是 从 疼 像 里 计算 出 来 的 数值 。 本 文 里 已 经 给 出 了 一 些 
特征 集合 。 它 们 通常 有 一 个 额外 优点 ,就 是 对 很 多 不 午 要 的 因 系 都 具有 不 变性 。 例如 线性 二 元 柑 
式 束 对 “ 像 系 值 琵 以 一 个 数 或 与 常量 相 加 ”这 个 操作 完全 不 变 。 这 使 得 它 对 于 图 像 光 照 变 化 十 分 
健壮 。 
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然而 , 你 的 特定 问题 也 可 能 会 受益 于 一 些 特别 设计 的 特征 。 例如 , 要 从 日 然 图 像 中 区 分 出 文 
字 , 定义 轮廓 分 明 的 文字 特征 就 很 重要 。 我 们 并 不 是 要 知道 文字 本 号 是 什么 (它们 可 能 是 轮廓 分 
明 的 或 方块 的 )， 而 是 说 文本 图 像 会 有 很 多 边界 。 因 此 ， 我们 希望 引入 一 种 “ 锐 度 特征 ”"。 有 一 些 
方法 可 以 实现 这 个 功能 ( 无限 多 ) 机 带 学 习 系 统 的 一 个 优点 驶 是 ， 我 们 只 需要 写 出 一 些 想 法 ， 
然后 驶 可 以 让 系统 找 出 哪些 是 好 的 ， 哪 些 不 太 好 。 


我 们 开始 介绍 另 一 个 传统 图 像 处 理 操 作 : 边界 寻找 。 在 这 里 ， 我 们 将 使 用 sobel 滤 波 。 从 数 
学 上 说 ,我 们 用 两 个 矩阵 对 图 像 渡 波 ( 求 卷 积 ); 坚 向 矩阵 如 下 图 所 示 : 














横向 矩阵 : 


然后 我 们 把 结果 的 平方 相 加 ， 得 到 对 每 一 点 锐 度 的 一 个 综合 估计 (在 其 他 情况 下 ,你 可 能 需要 把 
怪 边 和 横 边区 分 开 , 并 以 另外 一 种 方式 使 用 ; 当然 , 这 取决 于 具体 应 用 )。 mahotas 文 持 sobel 滤 波 ， 
如 下 所 示 : 





filtered = mh.sobel (image, Just_ filter=True) 


just_filter=True 这 个 参数 是 必要 的 ， 否 则 它 就 会 用 国 值 进行 过 滤 ， 并 得 到 对 边界 位 置 
的 一 个 估计。 下 图 显示 了 应 用 这 个 滤波 需 的 结果 ( 左 图 )， 以 及 卡 国 值 方法 得 到 的 结果 ( 右 图 ): 











基于 这 个 操作 元 ， 我 们 可 以 定义 一 个 全 局 特征 ， 作 为 它 的 综合 锐 度 : 


def edginess_sobel (image): 
edges = mh.sobel (image, just_ filter=True) 
edges = edges.ravel () 
return np.sqrt (np.dot (edges, edges)) 
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在 最 后 一 行 里 ,我 们 使 用 了 一 个 拉 巧 来 计算 均 方 根 一 一 用 内 积 消 数 np .dot 和 用 np.sum 
(edges ** 2) 是 等 价 的 ,但 运算 速度 要 快 很 多 (我们 仪 需 要 确保 和 完 把 数组 分 解 开 7)。 目 然 ， 
我 们 还 可 以 想 出 很 多 不 同方 式 来 得 到 相似 的 结果 。 比 如 一 个 明显 的 例子 是 , 使 用 卡 国 值 的 方式 计 
算出 大 于 国 值 的 像素 比例 。 


我 们 很 容易 把 这 个 特征 沃 加 到 之 前 的 管 这 里 : 


features = [| 




















for lm in images: 
image = mh.imread (im) 
features.append (np.concatenatel 
mh.features.haralick (im) .mean (0), 
# 用 我 们 的 特征 构建 一 个 单元 素 列 表 ， 与 np .concatenate 相 匹配 
[edginess_sobel (Im) ] ， 


) ) 
用 这 个 结构 很 容易 把 特征 集合 融合 进来 。 在 使 用 了 所 有 这 些 特征 之 后 , 我 们 得 到 了 84% 的 正确 率 。 

这 个 例子 完美 解释 了 这 样 一 个 原则 : 好 算法 只 是 比 较 容易 的 那个 部 分 。 你 总 可 以 找到 一 个 前 
沿 的 分 类 方法 来 实现 。 但 真正 的 秘密 和 附加 价值 通常 是 在 特征 设计 和 特征 工程 里 面 。 这 束 古 数据 
本 吴 知 识 的 价值 所 在 。 











10.3 ”在 更 难 的 数据 集 上 分 类 

前 面 这 个 数据 集 是 一 个 用 纹理 特征 分 类 的 简单 数据 集 。 事实 上 ，, 很 多 从 商业 角度 看 来 很 有 趣 
的 问题 ,其实 是 相对 容易 解决 的 。 有 时 我 们 会 面 对 更 加 困难 的 问题 ,需要 使 用 更 好 更 多 的 先进 技 
术 才 能 得 到 好 结果 。 

我 们 现在 来 测试 一 些 具 有 相同 结构 的 公共 数据 集 : 某 些 类 别 的 照片 。 这 些 类 别 包括 动物 、 汽 
车 、 交 通 运 输 和 自然 景色 。 

与 之 前 讨论 的 三 分 类 问题 相 比 ,， 这些 类 别 更 加 难以 区 分 。 自 然 风 景 、 建 筑 物 和 文字 具有 截然 
不 同 的 纹理 。 但 在 这 个 数据 集 里 ， 纹 理 并 不 是 类 别 的 明显 标志 。 下 面 是 动物 类 别 的 一 个 例子 : 
































这 是 为 一 张 汽车 类 别 的 图 像 : 
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两 张 图 片 都 有 目 然 育 景 ， 图像 里 都 有 较 大 的 平滑 区 域 。 因 此 我 们 可 以 认为 ,纹理 并 不 能 很 好 


如 果 使 用 跟 之 前 一 样 的 特征 ,我 们 用 逻辑 回归 在 交叉 验证 中 就 可 以 得 到 55% 的 正确 率 。 对 于 
4 个 类 别 来 说 ， 这 并 不 是 太 坏 ， 但 也 不 是 特别 好 。 让 我 们 看 看 是 否 可 以 用 一 个 不 同 的 方法 做 得 更 
好 。 事实 上 , 我 们 可 以 看 到 , 我 们 需要 把 纹理 特征 和 其 他 方法 组 合 起 来 , 才 可 能 得 到 最 好 的 绪 末 。 
但 是 ， 要 事 第 一 一 一 我 们 看 一 看 局 部 特征 。 
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在 计算 机 视觉 领域 里 有 一 个 较 新 的 进展 ， 那 就 是 基于 局 部 特征 的 方法 。 局 部 特征 (local 
feature ) 跟 之 前 我 们 介绍 的 从 整个 图 像 里 计算 出 的 特征 不 同 ， 它 是 在 图 像 的 一 小 块 区 域内 计算 出 
来 的 特征 。mahotas 文 持 这 类 特征 中 的 一 种 ; 加 速 稳健 特征 〈Speeded Up Robust Feature ) 又 叫做 
SURF; 还 有 一 些 其 他 特征 ， 其 中 最 有 名 的 要 算是 尺度 不 变 特 征 变 换 (Scale-Invariant Feature 
Transform，SIFT )。 这 些 局 部 特征 对 于 旋转 和 光照 变化 十 分 稳健 (也 就 是 说 , 在 光照 变化 的 时 候 ， 
它们 的 值 只 有 很 小 改变 )。 


在 使 用 这 些 特征 的 时 候 ， 我 们 需要 确定 在 哪里 计算 它们 。 这 里 有 3 个 经 常 采 用 的 选项 : 


口 随机 计算 ; 
口 在 一 个 格子 里 计算 ; 
口 检测 图 像 中 的 兴趣 区 域 ( 这 种 技术 叫做 关键 点 检测 ， 即 keypoint detection, 或 兴趣 点 检测 ， 


Binterest point detection )。 


所 有 这 些 方式 虱 是 可 行 的 ， 在 正确 的 场景 下 ， 它 们 都 可 以 给 出 较 好 的 结 采 。mahotas 对 这 二 
种 方式 都 提供 了 支持 。 如 来 你 确定 的 兴趣 点 可 以 和 图 像 里 的 重要 区 域 相对 应 , 那么 兴趣 点 检测 的 
效 末 将 会 是 最 好 的 。 当 然 , 这 取决 于 你 的 图 像 集合 里 面包 含 了 什么 。 通 常 ， 它们 对 人 造 图 像 的 效 
末 比 目 然 风 景 图 像 有 要好。 人造 景 观 有 较 强 烈 的 角度 、 边 界 ， 以 及 高 对 比 度 的 区 域 。 这 些 通 稼 会 被 
目 动 检测 副 识 别 为 兴趣 区 域 。 
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由 于 我 们 所 用 的 图 像 几 乎 都 是 自然 景观 ， 所 以 我 们 将 使 用 兴趣 点 方法 。 用 mabhotas 很 容易 计 
算 这 些 特 征 ; 引入 正确 的 子 模块 ， 并 调用 surf .surf 滑 数 : 


from mahotas.features import surf 





descriptors = surf.surf (image, descriptors_ only=True) 


descriptors_only=True 标 志 是 说 ， 我 们 只 对 它们 的 描述 符 感 兴趣 ， 对 它们 的 像素 位 置 、 
大 小 和 其 他 信息 并 不 感 兴趣 。 或 者 ， 我 们 可 以 采用 密集 抽样 方法 ,使 用 surf .dense 子 数 : 


from mahotas.features import surf 





descriptors = surf.dense(image, spacing=16) 


它 返 回 了 描述 符 的 值 。 这 个 值 是 从 相互 之 间 相 距 16 像 紊 的 点 集中 计算 出 来 的 。 由 于 这 些 点 的 
位 置 是 固定 的 ， 所 以 我 们 对 兴趣 点 的 元 信息 并 不 是 很 感 兴趣 , 它 也 不 会 默认 返回 ,不管 在 哪 种 情 
况 下 ， 它 的 结果 (这些 描述 符 ) 都 是 一 个 zx 64 的 数组 ， 其 中 n 是 抽样 点 的 个 数 。 抽 样 点 的 个 数 取 
决 于 图 像 的 大 小 、 图 像 的 内 容 ， 以 及 传 到 也 数 里 的 参数 。 我 们 之 前 使 用 的 部 是 默认 参数 ， 用 这 种 
方式 我 们 每 个 图 像 都 可 以 得 到 几 百 个 描述 符 。 


我 们 不 能 朋 接 把 这 些 措 述 符 传 进 支 持 癌 量 机 、 催 辑 回 归 或 者 类 似 的 分 类 系统 中 。 要 使 用 图 像 
中 的 描述 符 ， 这 里 有 几 种 方案 。 比 如 我 们 可 以 对 它们 取 平 均值 ， 但 这 种 做 法 的 效果 并 不 是 很 好 ， 
因为 这 样 会 丢失 位 置 相关 的 信息 。 在 这 种 情况 下 , 我 们 应 该 用 邦 外 一 组 基于 边缘 检测 的 全 局 特征 


人 
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在 这 里 我 们 要 采用 的 方案 是 词 袋 模型 。 这 是 一 个 非常 新 的 想法 。 它 第 一 次 发 表 旦 在 2004 年 。 
这 是 一 个 事后 看 起 来 非 第 明显 的 想法 : 它 非 常 简 单 ， 效 末 非 党 好 。 


在 处 理 图 像 的 时 候 提 到 “词语 ”， 这 好 像 有 些 奇 怪 ， 如 有 你 不 把 它 想象 成 与 出 来 的 词语 ， 而 
把 它 当 做 说 出 来 的 声 首 , 那 束 很 容易 理解 它们 之 间 的 区 别 。 如 来 一 次 说 出 一 个 词语 ,那么 声 首 就 
会 略 有 不 同 , 所 以 它 的 波形 也 不 会 跟 其 他 时 候 完 全 相同 。 然而 ,通过 对 波形 的 聚 类 ,我 们 希望 可 
以 从 中 恢复 出 大 部 分 结构 信息 , 使 得 包含 该 词语 的 所 有 样本 都 聚集 在 一 个 艇 中 。 即 使 这 个 过 程 并 
不 完美 《也 不 会 是 完美 的 )， 我 们 仍然 可 以 把 波形 的 分 组 当做 词语 。 


这 就 是 我 们 所 说 的 视觉 词语 : 把 图 像 中 看 起 来 相似 的 区 域 聚 成 一 组 ， 把 它们 叫做 视 沉 词语。 
这 里 的 分 组 是 我 们 在 第 3 草 中 所 碰 到 的 聚 类 的 一 种 形式 。 

















词语 个 数 一 般 对 算法 的 最 终 效 果 并 没有 很 大 影响 ,不 过 , 如果 这 个 数字 特别 

小 ( 10 或 20， 当 你 有 几 千 图 片 的 时 候 )， 那 么 整个 系统 的 效果 就 不 会 很 好 。 类 似 
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全 效果。 然而 ,在 两 个 极端 之 间 ， 通 第 有 一 个 很 大 的 区 间 ， 你 可 以 在 不 影响 效果 的 

情况 下 选择 词语 的 数目 。 作 为 一 个 经 验 法 则 ， 如 果 你 有 很 多 很 多 图 片 ， 采 用 诸如 
256、512 或 1024 这 样 的 数值 应 该 可 以 得 到 不 错 的 结果 。 
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我 们 从 计算 特征 开始 : 


alldescriptors = 上 [] 
for im in images: 
im = mh.imread (im, as_grey=True) 
lm = im.astype (np.uint8) 
alldescriptors.append (surf.surf (im, descriptors only)) 


这 样 可 以 得 到 超过 100 000 个 局 部 描述 符 。 现 在 ， 我 们 使 用 K 均 值 聚 类 (k-means clustering ) 得 
到 聚 类 中 心 。 我 们 可 以 使 用 所 有 的 描述 符 ， 但 是 为 了 提速 ， 我 们 只 使 用 其 中 一 个 较 小 的 抽样 集合 : 

concatenated = np.concatenate(alldescriptors) # 把 所 有 描述 符 放 进 一 个 数组 中 

concatenated = concatenated[::32] # 只 使 用 第 32 个 元 素 所 组 成 的 向 量 

from sklearn.cluster import Kmeans 

k = 256 


km = KMeans (k) 
km.fit(concatenated) 


在 所 有 这 些 都 做 完 之 后 (会 花费 一 点 工夫 )，km 里 会 包含 所 有 关于 聚 类 中 心 的 信息 。 我 们 现 
在 回 到 措 述 符 ， 来 构建 特征 回 量 : 


features = [|] 





for d in alldescriptors: 
C = km.predict(d) 
features .appemnd ( 
np.array( [np.sum(c == ci) for ci in range(k)]) 
) 


features = np.array (features) 


这 个 循环 得 到 的 最 后 结果 是 : features [fi] 是 一 个 跟 图 像 位 置 fi 相 对 应 的 直方 图 (用 
np .histogram 困 数 可 以 使 计算 更 快 ， 但 要 把 参数 弄 正 确 却 需要 一 点 技巧 ， 而 且 剩 下 的 代码 会 比 
现在 这 个 简单 步骤 缓慢 许多 )。 


结果 是 : 现在 每 个 图 像 可 以 用 一 列 数 目 相同 的 特征 来 表示 (在 我 们 这 里 类 禾 个 数 是 256 )。 
然后 我 们 就 可 以 使 用 标准 分 类 方法 进行 分 类 了 。 再 次 使 用 逻辑 回归 ， 我们 现在 得 到 了 62% 的 正确 
座 ， 有 7% 的 提升 。 我 们 把 所 有 特征 组 合 在 一 起 ， 可 以 得 到 67% 的 正确 率 ， 比 基于 纹理 的 方法 提 


高 12%。 
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10.5 小结 


我 们 学 习 了 在 机 各 学 习 范 畴 下 , 通过 把 几 百 万 像素 归 约 到 一 些 维度 上 , 用 基于 特征 的 经 典 方 
法 来 处 理 图 像 的 内 容 。 我 们 在 其 他 半 中 学 过 的 所 有 技术 ,部 可 以 直接 用 于 图 像 问 题 。 这 包括 分 类 
( 当 输 入 是 图 像 的 时 候 ， 这 通 第 又 叫做 模式 识别 入 聚 类 或 维度 归 约 (甚至 主题 模型 也 可 以 用 于 图 
像 ， 经 稼 可 以 得 到 很 有 趣 的 绪 采 )。 


我 们 还 等 习 了 如 何在 一 个 词 袋 模型 中 使 用 局 部 特征 进行 分 类 。 这 是 一 个 在 计算 机 视觉 中 非 第 
前 沿 的 方法 ,可 以 得 到 很 好 的 效 末 。 在 很 多 与 图 像 分 类 无 关 的 方面 , 它 部 具有 健壮 性 ,例如 不 同 
明暗 程度 的 图 像 , 以 及 同一 个 图 像 内 不 均匀 的 光照 情况 每 。 我们 还 把 聚 类 当做 分 类 的 一 个 有 用 的 
中 间 芗 又， 而 不 是 把 它 本 身 当做 绪 末 。 


我 们 重点 关注 了 mahotas， 它 是 基于 Python 的 一 个 主流 计算 机 视觉 库 。 同 时 ， 还 有 一 些 其 他 
的 库 也 同样 被 很 好 地 维护 着 。Skimage ( Scikit-image ) 在 原理 上 相似 ， 但 拥有 不 同 的 特征 集合 。 
OpenCV 是 一 个 非常 优秀 的 C++ 库 ， 提 供 Python 接 口 。 所 有 这 些 都 可 以 和 NumPy 数 组 协同 工作 ， 
并 可 以 混合 搭配 来 自 于 不 同 库 的 函数 ， 以 构建 复杂 系统 。 

在 下 一 章 , 你 将 会 接触 另 一 种 形式 的 机 器 学 习 : 维度 归 约 。 正如 我 们 在 之 前 几 章 里 所 看 到 的 ， 
包括 在 本 章 里 使 用 图 像 的 时 候 ， 生 成 很 多 特征 是 非常 容易 的 。 但 是 ,为 了 速度 、 可 视 化 或 效 末 提 
升 ， 我 们 通常 希望 减少 特征 的 个 数 。 在 下 一 革 ， 我 们 将 了 解 如 何 做 到 这 一 点 。 












































错 进 ， 错 出 ， 这 就 是 我 们 所 知 近 的 真实 生活 。 贯 穿 本 书 ,在 把 机 融和 学 习 方法 用 于 训练 数据 的 
时 候 我 们 已 经 看 到 ,这 种 模式 仍然 没有 错 。 获 然 回 首 , 我 们 发 现 机 带 学 习 中 最 有 趣 的 挑战 往往 会 
包含 一 些 特征 工程 的 内 容 。 我们 通过 对 问题 本 里 的 理解 ， 小 心音 愤 地 构造 出 一 些 特征 , 希望 机 带 
学 习 算 法 可 以 采纳 。 


在 本 章 , 我 们 将 走 相 反 的 路 线 , 那 就 是 降 维 。 它 会 把 无 关 或 见 余 的 特征 删 掉 。 删 减 特征 这 件 
事 初 看 起 来 似乎 违背 直觉 ,因为 按说 信息 比较 多 应 该 比 信 息 比较 少 更 好 才 对 。 可 以 不 忽略 无 用 特 
征 吗 ?” 比如 ， 在 机 带 学 习 算 法 里 把 它们 的 权重 设 为 0。 下 面 这 些 理由 会 告诉 你 为 什么 在 实践 中 应 
该 尽 可 能 消减 维度 。 
口 多 余 的 特征 会 影响 或 误导 学 习 各 。 并 不 是 所 有 机 可 学 习 方 法 都 有 这 种 情况 ( 例如， 支持 
回 量 机 就 喜欢 高 维 空间 ), 但 大 多 数 模型 在 维度 较 小 的 情况 下 会 比较 安全 。 
口 为 一 个 反对 蜗 维 特征 空间 的 理由 是 ， 更 多 特征 意味 着 更 多 参数 需要 调整 ， 过 拟 合 的 风险 
也 越 大 。 
口 我 们 用 来 解决 问题 的 数据 的 维度 可 能 只 是 虚 高 。 真 实 维 上 度 可 能 比较 小 。 
口 维度 越 少 意味 看 训练 越 快 ， 更 多 东西 可 以 和 尝试 ， 能 够 得 到 更 好 的 结 
口 如 来 我 们 想 要 可 视 化 数据 ， 束 必须 限制 在 两 个 或 三 个 维度 上 ; 这 就 是 所 谓 的 数据 可 视 化 。 


所 以 ， 这 里 将 告诉 你 如 何 把 数据 中 的 垃圾 扔 掉 ， 把 有 价值 的 部 分 保留 下 来 。 





























11.1 路 线 图 


降 维 方法 大 人 致 分 为 特征 选择 法 和 特征 抽取 法 。 几 乎 在 每 一 草 里 都 会 生成 、 分 析 ， 然 后 扔 挥 一 
些 特征 ， 我 们 已 经 使 用 过 一 些 特征 选择 法 。 在 本 章 ， 我 们 将 展示 一 些 利用 统计 方法 ( 叫做 相关 性 
和 互信 息 量 ) 在 大 特征 空间 中 进行 特征 选择 的 方式 。 特 征 抽取 试图 将 原 妈 特征 空间 转换 为 一 个 低 
维特 征 空间 。 无 法 使 用 选择 方法 删 减 特征 ， 而 特征 对 于 我 们 的 学 习 带 来 说 义 太 多 的 时 候 ， 这 种 方 
法 特别 有 效 。 我 们 将 使 用 主 成 分 分 析 ( Principal Component Analysis, PCA )、 线 性 判别 式 分 析 ( Linear 
Discriminant Analysis，LDA ) 和 多 维 标 度 法 ( MultiDimensional Scaling，MDS ) 来 验证 这 一 点 。 
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11.2 选择 特征 


如 朱 我 们 想 要 对 机 可 学 习 算 法 好 点 , 那 提 供给 它 的 特征 相互 之 间 应 该 没有 依赖 和 关系 , 同时 又 
跟 预测 值 高 度 相 关 。 这 意味 着 , 每 个 特征 部 可 以 加 入 一 些 重要 信息 。 把 它们 之 中 的 任何 一 个 删 挥 ， 
都 会 导致 性 能 的 下 降 。 


如 果 只 有 几 个 特征 , 我 们 可 以 画 出 一 个 散 点 矩阵 一 一 每 对 特征 组 合 部 有 一 个 散 点 。 很 容易 就 
可 以 发 现 特征 间 的 关系 。 对 于 显示 出 明显 依赖 天 系 的 每 对 特征 ,我 们 可 以 思考 是 否 应 该 把 其 中 一 
个 删 控 ， 或 者 在 这 两 者 之 外 设计 一 个 新 的 更 清楚 的 特征 。 


然而 , 在 大 多 数 时 间 里 , 我 们 会 在 更 多 的 特征 里 进行 选择 。 仪 仪 考虑 我 们 用 词 代 模型 对 答案 
质量 进行 分 类 这 个 任务 ， 它 需要 1000 x 1000 个 艇 扣 。 在 这 种 情况 下 ,我 们 第 要 一 个 更 加 目 动 的 方 
法 来 检测 特征 之 间 的 重 登 ,以 及 解决 这 种 重重 的 方法 。 我 们 将 会 在 下 面 这 些小 市 中 给 出 两 种 通用 
的 做 法 : 锯 选 带 〈filter ) 和 封 狐 般 ( wrapper )。 
































11.2.1 用 往 选 器 检测 元 余 特征 

筛选 器 试图 在 特征 丛林 中 进行 清洗 , 它 独立 于 后 续 使 用 的 任何 机 器 学 习 方法 。 它 基于 统计 方 
法 找 出 宛 余 ( 在 这 种 情形 下 ， 在 每 组 宛 余 特征 中 只 需要 保留 其 中 一 个 ) 或 无 关 特 征 。 一 般 来 讲 ， 
筛选 器 的 工作 流 如 下 图 所 示 : 











All features Select features Some features Select features Resulting 
x1, x2, ..., xN that are not x2, x7, ..., xM that are not features 
redundant irrelevant x2, x10, x14 


1. 相关 性 











通过 使 用 相关 性 ， 我 们 很 容易 看 到 特征 之 间 的 线性 关系 。 这 种 关系 可 以 用 一 条 直线 来 拟 合 。 
在 下 面 这 些 图 中 , 我 们 可 以 看 到 不 同 程度 的 相关 性 ,以 及 一 个 用 红色 虚线 描绘 出 的 淤 在 线性 依赖 
关系 (一 个 拟 合 的 一 维 多 项 式 ), 每 幅 图 上 方 的 相关 系数 Cor(, 史 ) 是 用 皮尔 逊 相关 系数 ( Pearson 
correlation coefficient ) 计算 出 来 的 ( 皮尔 逊 r 值 )， 采 用 的 是 scipy.stat 里 的 pearsonr () 函数 。 


给 定 两 个 大 小 相等 的 数据 序列 , 它 会 返回 相关 系数 值 和 p 值 所 组 成 的 元 组 。P 值 是 该 序列 产生 
于 一 个 不 相关 系统 的 概率 。 换 句 话 说，p 值 越 蜗 ， 我 们 越 不 能 信任 这 个 相关 系数 : 
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>> from import scipy.stats import pearsonr 

>> pearsonr([1,2,3], [1,2,3.1]) 

>> (0.99962228516121843, 0.017498096813278487) 
>> pearsonr([1,2,3], [1,20,6]) 

>> (0.25383654128340477, 0.83661493668227405) 


在 第 一 种 情况 下 , 我 们 很 清楚 地 知道 这 两 个 序列 是 相关 的 。 而 在 第 二 种 情况 下 ,我 们 仍然 有 
一 个 非 零 的 r 值 。 


si 文 个 相关 系数 是 什么 样 的， 我 们 不 应 该 对 它 过 多 关注 。 下 图 中 
的 输出 说 明了 这 











Cor(X1, X,) = 1.000 Cor(Xi, X,) = 0.999 


Cor(X, Xa) = 0.787 Cor(X, X,) = 0.070 





在 前 三 个 具有 高 相关 系数 的 情形 中 ,我 们 可 能 要 把 凶 或 加 扔 挥 ， 因为 它们 似乎 传递 了 相似 的 








然而 在 最 后 一 种 情况 中 , 我 们 应 该 把 两 个 特征 都 保留 。 在 我 们 的 应 用 中 , 这 种 决策 当然 是 由 
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p 值 驱动 的 。 

尽管 这 种 方法 在 前 面 这 个 例子 中 工作 得 不 错 , 但 在 实际 应 用 中 却 并 不 如 意 。 基 于 相关 性 的 特 
征 选 择 方 法 的 一 个 最 大 缺点 就 是 ， 它 只 能 检测 出 线性 关系 (可 以 用 一 条 直线 拟 合 的 关系 )。 如 果 
我 们 在 非 线性 数据 中 使 用 相关 性 ， 那 就 有 问题 了 。 在 下 面 这 个 例子 中 ， 我 们 会 有 一 个 二 次 关系 : 


























Cor(Xi, 并) = -0.078 | Cor(X, Xa) = -0.071 





除 右 下 图 以 外 的 所 有 图 中 , 尽管 人 类 的 眼睛 可 以 立即 看 到 YR 和 之 间 的 关系， 却 没 法 发 现 相 
天 系数 。 很 明显 ， 相 关 性 在 检测 线性 关系 中 是 很 有 用 的 ， 但 对 于 其 他 关系 就 不 行 了 。 


对 于 非 线性 关系 ， 互 信息 出 马 了 。 
2. 互信 息 
在 进行 特征 选择 的 时 候 ， 我 们 不 应 该 像 前 一 中 那样 《线性 关系 )， 把 焦点 放 在 数据 关系 的 
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类 型 上 。 相 反 ， 我 们 应 该 考虑 一 下 ， 在 已 经 给 定 另 一 个 特征 的 情况 下 一 个 特征 可 以 提供 多 少 信 
自 


要 理解 这 个 ， 假设 我 们 想 要 用 特征 集合 中 的 house_size、 num of levels 科 avg_rent _price 
等 征 训练 一 个 分 类 入， 来 预测 房子 是 否 有 电 柳 。 在 这 个 例子 里 ， 我 们 在 百 党 上 可 以 看 到 ， 知 道 
house_size 就 意味 着 我 们 并 不 再 需要 number_of _levels ， 因 为 它 包 含 了 宛 余 信息 。 但 
avg_rent_price 就 不 一 样 了 , 我们 没 法 简单 从 房屋 的 大 小 或 楼 层 来 推断 租赁 的 价格 。 因 此 , 我 
们 应 该 保留 这 两 个 特征 中 的 一 个 ， 再 加 上 平均 租赁 价格 。 


互信 息 会 通过 计算 两 个 特征 所 共有 的 信息 ,把 上 述 推理 过 程 形式 化 表达 出 来 ,与 相关 性 不 同 ， 
它 依赖 的 并 不 是 数据 序列 ， 而 是 数据 的 分 布 。 要 理解 它 是 怎样 工作 的 , 我们 需要 深入 了 解 一 点 信 
息 烂 的 知识 。 


假设 我 们 有 一 个 公平 的 硬币 。 在 旋转 它 之 前 , 它 是 正面 还 是 反面 的 不 确定 性 是 最 大 的 ， 因 为 
两 种 情况 都 有 $0% 的 概率 。 这 种 不 确定 性 可 以 通过 克 劳 德 . 香农 ( Claude Shannon ) 的 信息 业 来 
衡量 : 
































H(X)= —2;1Pp(Xi)log2 p(Xi) 
在 公平 硬币 情景 下 , 我 们 有 两 种 情况 : 令 xo 代 表 便 币 正 面 ,x 代表 便 币 反面 ,p(Xo)=p(X1)=0.5。 
因此 ， 我 们 得 到 下 面 的 式 子 : 


H(X)= -p(xo)log, p(X) p(x)log, p(x)= -0.5:1l0g,(0.3)—0.5 
‘log, (0.5)=1.0 


为 方便 起 见 ， 我 们 还 可 以 用 scipy.stats.entropy([0.5, 0.5],， base=2)。 
我 们 把 base 这 个 参数 设 为 2， 就 可 以 得 到 跟前 面 一 样 的 结果 了 。 否则 ,这 个 肥 Pe 
RS 会 通过 np.1og() 使 用 自然 对 数 。 一 般 来 说 ， 数 基 对 于 结果 并 没有 什么 
ee 





现在 , 想象 我 们 事先 知道 这 个 便 币 实际 上 并 不 是 公平 的 , 旋转 之 后 有 60% 的 可 能 性 会 出 现 便 
币 的 正面 : 


H(X)= -0.6:log,(0.6)—0.4log,(0.4) = 0.97 


我 们 可 以 看 到 这 种 情形 有 较 少 的 不 确定 性 。 不 管 正面 出 现 的 概率 为 0% 还 是 100%， 不 确定 性 
都 将 会 远离 我 们 在 0.5 时 所 得 到 烂 ， 到 达 极 端的 0 值 ， 如 下 图 所 示 : 














| 


PIX =coin will show heads up 





我 们 现在 修改 炉 X) 的 计算 方式 ， 使 之 能 够 应 用 到 2 个 特征 上 而 不 是 1 个 。 它 衡量 了 在 知道 Y 
的 情况 下 ，X 中 所 减少 的 不 确定 性 。 这 样 我 们 就 可 以 得 到 ， 一 个 特征 使 男 一 个 特征 的 不 确定 性 减 
少 的 程度 。 

例如 ,在 对 天 气 情况 没有 任何 了 解 的 情况 下 , 我 们 完全 不 能 确定 外 面 是否 下 雨 了 。 但 如 果 我 
们 现在 知道 外 面 的 草地 是 湿 的 ， 那 么 这 种 不 确定 性 就 会 减少 。( 我 们 仍然 需要 查看 酒水 机 是 否 打 
开 了 。 ) 

更 正式 地 讲 ， 互 信息 量 是 这 样 定义 的 : 

I(X;Y) = De D1 P(Xs, Y) log, PE, 

这 看 起 来 有 一 点 令 人 向 旦 ， 但 它 实际 上 只 不 过 是 一 些 求 和 和 求 积 。 例 如 ，PO 可 以 通过 把 特 
征 值 分 成 一 些 桶 ， 然 后 计算 进入 每 个 桶 里 的 数字 的 比例 来 得 到 。 在 下 面 这 个 图 中 , 我 们 把 桶 的 个 
数 设 为 10。 

为 了 把 互信 息 量 限 制 在 [0,1] 区 间 , 需要 把 它 除 以 每 个 独立 变量 的 信息 灶 之 和 , 然后 就 可 以 得 
到 归 一 化 后 的 互信 息 量 : 












































I(X;Y 
NI(X;Y) = HO) 


信息 量 的 一 个 较 好 的 性 质 在 于 ， 跟 相关 性 不 同 ， 它 并 不 只 关注 线性 关系 ， 如 下 图 所 示 : 
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NI(X，X) = 0.308 NNX, Xz) = 0.277 








NI(X, Xo,) = 0.262 : Nec X 中 = 0.262 


NICG x 3) = 0.187 NI X Yo) = 0.083 

















所 以 , 我 们 需要 计算 每 对 特征 之 间 的 归 一 互信 息 量 。 对 于 具有 较 高 互信 息 量 的 特征 对 , 我 们 
会 把 其 中 一 个 特征 扔 掉 。 在 进行 回归 的 时 候 ， 我 们 可 以 把 互信 息 量 非常 低 的 特征 扔 掉 。 
对 于 较 小 的 特征 集合 这 种 方式 的 效果 或 许 还 可 以 。 但 是 , 在 某 种 程度 上 说 ,这 个 过 程 会 非 稼 
绥 慢 ， 计 算 量 会 以 平方 级 别 增长 ， 因 为 我 们 要 计算 的 是 每 对 特征 之 间 的 互信 息 量 。 
筛选 硕 的 还 有 一 个 巨大 缺点 ， 它 们 扔 掉 在 独立 使 用 时 没有 用 处 的 特征 。 但 实际 情况 往往 是 ， 


一 些 特 征 看 起 来 跟 目标 变量 完全 独立 , 但 当 它 们 组 合 在 一 起 时 就 有 效用 了 。 要 保留 这 些 特 征 , 我 
们 就 震 要 封 交 闪 。 






































11.2.2 ”用 封装 器 让 模型 选择 特征 
筛选 器 对 删除 无 用 特征 有 很 大 的 作用 ， 但 它们 也 只 能 做 到 这 里 了 。 在 所 有 筛选 都 做 完 之 后 ， 
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仍然 可 能 有 一 些 特征 ,它们 之 间 彼 此 独立 , 并 且 和 目标 变量 有 一 定 程度 的 依赖 关系 ,但 是 从 模型 
的 角度 来 看 ,它们 却 蝇 无 用 处 。 只 需要 考虑 下 面 这 个 数据 , 它 描绘 的 是 XOR 困 效 。 独 立 来 看 ,不 
管 4 还 是 B， 和 都 跟 7 设 有 任何 依赖 关系 ， 但 把 它们 放 在 一 起 ， 就 有 明显 的 关系 : 








一 一 号 尼 | 下 
一 局 一 局 | 加 


Y 
0 
1 
1 
0 





所 以 , 为 什么 不 让 模型 自己 给 每 个 特征 投票 呢 ?” 这 就 是 封 汉 带 所 要 做 的 , 如 下 面 这 个 流程 图 
Di 





当前 特征 集 
合 。 用 所 有 每 个 特征 得 到 的 特征 
特征 XxX1 ,X22 的 重要 性 一 说 为 X2.X10,X14 
xN 进 行 了 初 








始 化 











在 这 里 ,我们 把 特征 的 重要 性 计算 放 在 模型 的 训练 流程 里 。 踪 憾 的 是 (但 是 可 以 理解 )， 特 
征 重 要 性 并 不 是 一 个 二 元 值 ,而 是 一 个 排序 值 。 所 以 仍然 需要 给 出 切 分 的 位 置 一 一 哪 部 分 特征 我 
们 希望 保留 ， 以 及 哪 部 分 想 要 扔 挥 ? 


回 到 Scikit-learn， 我 们 发 现在 sklearn.feature selection 包 里 有 各 种 优秀 的 封装 句 类 ，。 
这 个 领域 中 的 一 个 真正 主力 军 叫 做 RFE ， 这 个 缩写 代表 的 是 特征 递归 消除 (recursive feature 
elimination )。 它 会 把 一 个 估算 需 和 预期 数量 的 特征 当做 参数 , 然后 只 要 发 现 一 个 足够 小 的 特征 子 
集 ， 承 在 这 个 特征 集合 里 训练 估算 希 。REFE 实 例 在 封装 佑 算 需 同时， 它 本 映 看 起 来 也 像 是 一 个 舍 
算 兹 。 

在 下 面 这 个 例子 中 我 们 通过 aatasets 的 make_classification () 浮 数 ， 创建 了 一 个 人 
工 构 造 的 分 类 问题 , 它 包 含 100 个 样本 。 我 们 创建 了 10 个 特征 ， 其 中 只 有 3 个 对 解决 这 个 分 类 问题 
是 有 价值 的 : 

>>> from sklearn.feature selection import RFE 


>>> from sklearn.linear model import LogisticRegression 
>>> from sklearn.datasets import make classification 




















180 第 11 章 降 维 


>>> X,y = make classification(n samples=100, n features=10, n_ 
informative=3, random state=0) 


>>> clf = LogisticRegression() 

>>> clf.fit(x, y) 

>>> selector = RFE(clf, n features to select=3) 
>>> selector = selector.fit(xX, y) 


>>> print (selector.support ) 

[False True False True False False False False True Falsel 
>>> print (selector.ranking ) 

[4 1318576 1 2] 


当然 ， 真实 情景 中 的 问题 是 ， 我 们 该 如 何 知 道 n_features_to_select 的 正确 值 呢 ?事实 
上 , 我们 也 无 法 知道 。 但 在 多 数 时 间 里 ,我 们 都 可 以 采用 不 同 的 设置 ， 对 数据 里 的 一 些 样本 进行 
试验 ， 快 速 得 到 一 个 大 致 正确 的 估计 。 

一 个 好 消息 是 ， 我 们 在 使 用 封闭 大 的 时 候 并 不 需要 那么 精确 。 让 我 们 答 试 儿 个 不 同 的 


n features to selec t 值 、 来 看 看 support_ 和 ranking_ 会 如 何 改 变 . 




















n features to select support _ ranking 
1 [False False False True False False False False False False] [6 3 511079824] 
2 [False False False True False False False False True Falsel] [ 524196871 3] 
3 [False True False True False False False False True Falsel [413185761 2] 
4 [False True False True False False False False True Truel] [3121746511] 
4 [False True True True False False False False True Truel] [2111635411] 
6 [ True True True True False False False False True Truel] [1111524311] 
7 [ True True True True False True False False True Truel] [1111413211] 
8 [ True True True True False True False True True Truej [1111312111] 
9 [ True True True True False True True True True Truel] [1111211111] 
10 [ True True True True True True True True True True] [1111111111] 


我 们 可 以 看 到 ,这 个 结果 十 分 稳定 。 在 较 小 特征 集合 里 选择 的 特征 , 在 更 多 特征 加 入 进来 的 
时 候 仍然 会 被 选择 。 最 后 ， 如 果 走 错 了 方 回 ， 我 们 会 用 训练 /测试 集合 来 报警 。 


11.3 ”其 他 特征 选择 方 ; 


当 你 阅读 机 融 学 习 文 献 的 时 候 , 会 发 现 其 他 一 些 特 征 选择 方法 。 其 中 一 些 甚 至 看 起 来 并 不 像 
特征 选择 方法 ,因为 它们 是 航 在 学 习 过 程 里 面 的 《不 要 跟前 面 提 到 的 封 交融 混 消 ) 例如 决策 树 ， 
它 有 一 个 浴 植 于 其 内 核 的 特征 选择 机 制 。 其 他 学 习 方 法 则 会 采用 一 些 正则 化 方法 对 模型 复杂 性 进 
行 惩 避 ， 从 而 使 学 习 过 程 天 春 效 来 较 好 并 且 仍 然 “ 价 单 ” 的 模型 发 展 。 它 们 是 通过 把 效用 不 大 的 
特征 的 重要 性 降低 为 0， 人 然后 把 它们 扔 掉 (LI 正则 化 ) 进行 特征 选择 的 。 


看 吧 ! 通常 ， 机 右 学 习 方法 的 威力 很 大 程度 上 要 取决 于 植 入 它们 的 特征 选择 方法 。 
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11.4 ”特征 抽取 


从 某 种 程度 上 说 , 当 我 们 删除 挥 见 余 特 征 和 无 关 特 征 的 后 ,经 常会 发 现 仍 然 还 有 过 多 的 特征 。 
无 论 使 用 什么 机 天 学 习 方法 , 它们 的 效果 都 不 会 太 好 。 我 们 可 以 理解 , 在 给 定 的 巨大 特征 空间 中 ， 
实际 上 它们 不 可 能 做 得 很 好 。 我 们 意识 到 ， 必 须 砍 挥 “皮肉 "， 删 挥 那些 在 常识 音义 上 具有 价值 
的 特征 。 男 一 种 需要 降低 维度 , 但 特征 选择 又 不 会 有 多 大 帮助 的 情况 是 : 对 数据 进行 可 视 化 。 我 
们 最 多 只 能 用 3 个 维度 ， 才 能 得 到 有 意义 的 图 形 。 

现在 我 们 进入 特征 抽取 方法 。 这 些 方法 会 对 特征 空间 进行 重 构 , 使 我 们 更 容易 接近 模型 , 或 
者 简单 把 维度 砍 到 二 维 或 三 维 ， 使 我 们 能 够 把 它们 之 间 的 依赖 关系 可 视 化 地 描绘 出 来 。 

同样 ,我 们 也 可 以 把 特征 抽取 方法 分 成 线性 和 非 线 性 的 。 跟 特征 选择 那 一 市 一 样 ,我们 对 
个 类 型 都 会 给 出 一 种 方法 , 线性 的 是 主 成 分 分 析 , 非 线 性 的 是 多 维 标 度 法 。 尽 管 这 两 种 方法 已 经 
被 广泛 了 解 和 使 用 ， 它 们 也 只 是 更 多 有 趣 而 强大 的 特征 抽取 方法 中 的 代表 。 











11.4.1 主 成 分 分 析 (PCA) 

主 成 分 分 析 ( PCA )， 通常 是 你 想 要 删 减 特征 但 又 不 知道 用 什么 特征 抽取 方法 时 ， 第 一 个 要 
去 尝试 的 方法 。PCA 的 能 力 是 有 限 的 ， 因 为 它 是 一 个 线性 方法 。 但 很 可 能 它 已 经 足以 使 你 的 模型 
学 得 很 好 。 外 加 上 它 有 着 良好 的 数学 性 质 、 发 现 转换 后 特征 空间 的 速度 、 以 及 在 原始 和 变换 后 特 
征 间 相 互 转换 的 能 力 ， 我 们 几乎 可 以 保证 ， 它 将 会 成 为 你 最 常用 的 一 个 机 器 学 习 工具 。 

总 结 起 来 ， 给 定 原始 特征 空间 ，PCA 会 找到 一 个 到 更 低 维 度 空间 的 线性 映射 。 它 具有 如 下 性 质 : 

D 保守 方差 是 最 大 的 ; 

D 最 终 的 重 构 误 差 ( 从 变换 后 特征 回 到 原始 特征 ) 是 最 小 的 。 

由 于 PCA 只 是 简单 对 输入 数据 进行 变换 ， 所 以 它 既 可 以 用 于 分 类 问题 也 可 以 用 于 回归 问题 。 
在 本 节 里 ， 我 们 将 使 用 一 个 分 类 任务 来 探讨 这 个 方法 。 

1. PCA 概 述 

PCA 包 含 很 多 线性 代数 的 内 容 , 我 们 并 不 想 深入 探讨 。 然 而 , 它 的 基础 算法 很 容易 用 以 下 步 
又 描述 : 

(D 从 数据 中 减 去 它 的 均值 ; 

(2) 计算 协 方差 矩阵 ; 

G) 计算 协 方差 矩阵 的 特征 向 量 。 

如 果 我 们 从 N 个 特征 开始 ， 这 个 算法 会 返回 一 个 变换 后 的 N 维 特征 空间 一 一 到 现在 为 止 我 们 
并 没有 得 到 什么 。 然 而 ,这 个 算法 的 一 个 好 处 在 于 ,矩阵 的 特征 值 预示 着 方差 的 大 小 , 这 是 通过 
对 应 的 矩阵 特征 向 量 来 描述 的 。 
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让 我 们 假设 有 NM=1000 个 特征 ， 同 时 我 们 知道 我 们 的 模型 在 多 于 20 个 特征 的 时 候 效果 不 会 很 
好 。 然 后 我 们 从 中 挑选 出 20 个 具有 最 高 矩阵 特征 值 的 特征 回 量 。 





2. PCA 应 用 

让 我 们 考虑 如 下 人 造 数据 集 ， 如 左 图 所 示 : 

>>> X = np.arange(0, 10, .2) 

>>> x2 = xl+np.random.normal (loc=0, scale=1, size=len (x1)) 
>>> X= np.c_[(xl, x2)] 

>>> good = (xl>5) | (x2>5) # 一 些 任意 类 别 


>>> bad = ~good # 使 示例 看 起 来 比较 好 


Original feature space Transformed feature Space 





Scikit-learn 在 它 的 aecomposition 包 里 提供 了 PCA 类 。 在 这 个 例子 里 ， 我 们 可 以 明显 看 到 ， 
1 个 维度 已 经 足以 描述 数据 。 我 们 可 以 用 n_components 人 参数 给 出 : 


>>> from sklearn import linear model, decomposition, datasets 
>>> pca = decomposition.PCA(n components=1) 


这 里 使 用 PCA 的 fit () 和 transform() 方 法 (或 者 fit_transform() 组 合 ) 来 分 析 数 据 ， 
并 把 数据 映射 到 变换 后 的 特征 空间 中 : 


>>> Xtrans = pca.fit transform(Xx) 

Xtrans 只 包含 一 个 维度 ， 正 如 我 们 指定 的 那样 。 你 可 以 在 右 图 中 看 到 结 末 。 在 这 个 例子 里 ， 
输出 的 结果 是 线性 可 分 的 。 我 们 甚至 不 需要 一 个 复杂 的 分 类 带 ， 就 可 以 区 分 出 这 两 个 类 别 。 

要 对 重 构 误差 有 一 个 认识 ， 我 们 看 一 下 在 变换 中 保留 下 来 的 数据 方差 : 


>>> print (pca.explained variance ratio. ) 
>>> [ 0.96393127|] 


这 意味 着 ， 在 数据 从 二 维 变 成 一 维 之 后 ， 我 们 仍然 剩 下 96% 的 方差 。 
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当然 , 情况 并 不 总 是 如 此 人 徐 单 。 通 第 , 我 们 事先 并 不 知道 有 多 少 维 是 可 取 的 。 在 那 种 情况 下 ， 
我 们 在 初始 化 PCA 的 时 候 并 不 会 指定 n_components 参 数 ， 而 是 让 它 进行 完全 转换 。 对 数据 进行 
拟 合 之 后 ，explained_variance_ratio 包含 了 一 个 以 降序 排列 的 比例 数组 。 第 一 个 值 就 是 
描述 最 大 方差 方 回 的 基 回 量 的 比例 ， 而 第 二 个 值 就 是 次 最 大 方差 方 辐 的 比例 ,以 此 类 推 。 画 出 这 
个 数组 之 后 ， 我 们 可 以 快速 看 到 我 们 需要 多 少 个 成 分 : 在 图 表 里 成 分 个 数 恰 好 出 现 抛 角 的 地 方 ， 
通常 是 一 个 很 好 的 猜测 。 




















成 分 个 数 和 方差 之 间 的 关系 图 ,叫做 Scree 图 ,在 http://scikit-learn.sourceforge. 
net/stable/auto examples/plot digits pipe.html 可 以 下 载 到 一 个 结合 Scree 图 和 网 格 
搜索 来 为 分 类 问题 寻找 最 佳 设 置 的 例子 。 


11.4.2 ”PCA 的 局 限 性 以 及 LDA 会 有 什么 帮助 


作为 一 个 线性 方法 , PCA 在 处 理 非 线性 数据 时 就 有 局 限 性 了 。 我 们 在 这 里 并 不 会 深入 探讨 细 
节 问 题 ,但 可 以 说 ，PCA 的 一 些 扩展 ， 例 如 Kernel PCA， 会 引入 非 线 性 变换 ， 使 我 们 仍然 可 以 使 
用 PCA 方 法 。 


PCA 态 一 个 有 趣 的 弱点 出 现在 将 它 应 用 到 特殊 分 类 问题 的 时 候 。 








让 我 们 将 下 面 的 式 子 : 

SS 000 (RISB) | (256) 
蔡 换 为 : 

>>> good = x1>x2 


来 模拟 一 个 特殊 情况 ， 我 们 可 以 很 快 发 现 问题 所 在 。 


Original feature space Transformed feature space 


ODSD CGODS COO DO 
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在 这 里 ， 当 坐标 轴 代 表 方 差 最 高 的 方 回 时 ,各 个 类 别 并 不 会 分 散 开 ,而 如 末代 表 的 是 次 遍 方 
差 的 方向 ,， 却 可 以 分 散 开 。 很 明显 ，PCA 犯 了 错误 。 由 于 我 们 并 没有 提供 给 它 任 何 关 于 类 别 标签 
的 信息 ， 它 无 法 做 得 更 好 。 

线性 判别 式 分 析 ( Linear Discriminant Analyisis，LDA ) 出 场 了 。 这 个 方法 试图 让 不 同类 别 
样本 之 间 的 距离 最 大 ,同时 让 相同 类 别 样本 之 间 的 距离 最 小 。 在 这 里 , 我们 就 不 深入 探讨 其 背后 
理论 细节 了 ， 仅 给 出 一 个 帮 你 快速 入 门 的 使 用 方法 : 























>>> from sklearn import lda 
>>> lda_inst = lda.LDA(n components=1) 
>>> Xtrans = lda inst.fit transform(X, good) 


仪 此 而 已 。 注意, 与 之 前 的 PCA 例 子 相 比 , 我 们 为 fit_transform() 方 法 提供 了 类 别 标签 。 
所 以 , PCA 是 一 个 无 监督 的 特征 抽取 方法 , 而 LDA 是 一 个 有 监督 的 方法 ,其 结果 看 起 来 符合 预期 . 











Original feature space z Transformed feature space 











那么 , 为 什么 首先 考虑 PCA 而 不 是 LDA 呢 ? 好 吧 , 事情 并 不 是 那样 简单 。 随 着 类 别 数 量 的 增 
多 , 每 个 类 别 中 的 样本 就 会 变 得 稀少 , LDA 的 效果 也 就 不 再 那么 好 。 同时, 对 于 不 同 训练 集 , PCA 
并 不 像 LDA 那 样 敏 感 。 所 以 当 我 们 需要 考虑 选用 哪个 方法 时 ， 只 能 说 “看 情况 ”。 





11.5 多维 标 度 法 (MDS) 


一 方面 ，PCA 试 图 对 保留 下 来 的 数据 方差 进行 优化 ， 而 男 一 方面 ，MDS 在 降低 维度 的 时 候 
试图 尽 可 能 保留 样本 间 的 相对 距离 。 当 我 们 有 一 个 高 维 数据 集 , 并 硕 望 获得 一 个 视觉 印 象 的 时 候 ， 
这 是 非 第 有 用 的 。 


MDS 对 数据 点 本 里 并 不 关心 ， 相 反 ， 它 对 数据 点 间 的 不 相似 性 却 很 感 兴趣 ， 并 把 这 种 不 相 
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似 性 解释 为 距离 。 因 此 ，MDS 算 法 第 一 件 要 做 的 事情 就 是 , 通过 距离 水 数 do 对 所 有 N 个 K 维 数据 计 
算 距 离 矩 阵 。 它 衡量 的 是 原始 特征 空间 中 的 距离 ( 大 多 数 时 候 部 是 欧 氏 距离 )。 











| do (Xi, Xi1) :.. do(XN, Xi) 
| Ee ; 
A ANE do (Xi, XN) ::: do(XN, XN) 


现在 ，MDS 试 图 在 低 维 空间 中 放置 数据 点 ,使 得 新 的 距离 尽 可 能 与 原始 空间 中 的 距离 相似 。 
由 于 MDS 经 常用 于 数据 可 视 化 ， 所 以 低 维 空间 的 维度 大 多 数 时 候 虱 是 2 或 3。 

让 我 们 看 看 下 面 这 个 在 五 维 空间 中 包含 三 个 样本 的 傈 单数 据 。 其 中 两 个 数据 非 党 接近， 而 忆 
外 一 个 明显 不 同 。 我 们 希望 在 三 维和 二 维 空间 中 把 它们 可 视 化 展现 出 来 ， 如 下 所 示 : 





>>> X= np.c_ [Inp.ones(5), 2 * np.ones(5), 10 * np.ones(5)].T 
>>> print (xX) 

[[ 1. 1.: 下: 1 1.] 

[ 2. 2. 2 . 2 . 2.] 


[ 10. 10. 10. 10. 10.]] 
及 用 Scikit-leam 的 manifold 包 中 的 MDs 类 ,我 们 先 指 定 要 把 X 转 换 到 一 个 三 维 空间 中 ， 如 下 所 
不 : 
>>> from sklearn import manifold 


>>> mds = manifold.MDS(n components=3) 
>>> Xtrans = mds.fit transform(Xx) 


要 想 在 二 维 空间 中 可 视 化 ， 我 们 需要 使 用 n_components。 
在 下 面 这 两 个 图 里 可 以 看 到 结果 。 三 角形 点 和 圆 形 点 比较 接近 ， 而 星 形 点 则 离 得 很 远 . 


MDS on example data set in 2 dimensions 


MDS on example data set in 3 dimensions 





来 看 一 下 更 复杂 一 点 的 Iris 数 据 集 。 我 们 之 后 会 用 它 来 对 PCA 和 LDA 进 行 比较 。 在 Iris 数 据 集 
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里 每 个 花 打 都 包含 4 个 属性 。 采 用 之 前 的 代码 ， 我 们 可 以 把 它 映射 到 一 个 三 维 空间 中 ， 同 时 尽 可 
能 保留 每 个 花 休 之 间 的 相对 距离 。 在 前 面 那 个 例子 里 ,我 们 并 没有 指定 任何 距离 衡量 方法 ， 所 以 
MDS 会 默认 使 用 欧 氏 距离 。 这 意味 着 ,根据 这 4 个 属性 判定 的 不 同 花 杂 ， 在 MDS 尺 度 下 的 三 维 空 














相反 , 用 PCA 把 维度 归 约 到 三 维和 二 维 的 时 候 , 我 们 可 以 看 到 属于 同一 类 别 的 花 朱 , 会 有 更 
大 汇 围 的 扩散 ， 如 下 图 所 示 : 





PCA on lris data set in 3 dimensions 








当然 ， 要 使 用 MDS， 我 们 需要 理解 每 一 个 特征 ; 或 许 我 们 所 使 用 的 特征 并 不 能 用 欧式 距离 
进行 比较 。 例 如 ， 一 个 类 别 变 量 ， 即 使 它 被 编码 为 一 个 整数 ( 0= 红 色 圆 圈 、1= 蓝 色 星 形 、3= 绿 
色 三 角形 )， 也 无 法 用 欧 氏 距离 比较 。(〈 红 色 离 蓝 色 的 距离 比 离 绿色 更 近 ? ) 


我 们 了 解 这 个 问题 之 后 ， 就 会 发 现 MDS 是 一 个 揭示 数据 相似 性 的 有 用 工具 ， 这 在 原始 特征 
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空间 中 很 难看 到 。 


深入 了 解 MDS 后 ， 我 们 发 现 它 并 不 是 一 个 算法 ， 而 是 一 类 不 同 的 算法 ， 我 们 只 是 使 用 了 其 
中 的 一 个 而 已 。PCA 也 是 如 此 。 如 果 你 发 现 无 论 PCA 还 是 MDS 都 不 能 解决 你 的 问题 ， 那 就 要 看 一 
下 其 他 流 形 的 学 习 算 法 了 了 ， 可 以 在 Scikit-lean 包 中 找到 它们 。 


11.6 ”小结 


在 这 一 半 中 , 我 们 知道 有 时 可 以 用 特征 选择 法 删 减 特征 。 我 们 还 看 到 , 在 一 些 情 况 下 仅仅 删 
减 特征 还 不 够 ， 还 要 使 用 特征 抽取 法 揭示 数据 里 的 真实 低 维 结构 ， 使 模型 更 容易 处 理 。 

我 们 只 是 浅显 探讨 了 现 有 的 大 量 降 维 方法 。 我 们 仍然 希望 你 可 以 对 这 个 领域 感 兴 趣 , 还 有 很 
多 其 他 方法 等 你 去 发 现 。 最 后 ， 特 征 选 择 和 抽取 更 像 是 一 门 艺术 ， 怠 跟 选 择 正确 学 习 方 法 或 训练 
贰 J 一 样 。 

下 一 半 将 涉及 Jug 的 使 用 ，Jug 是 一 个 利用 多 核 或 多 主机 进行 计算 的 小 型 Python 框 染 。 男 外 ， 
我 们 还 会 介绍 AWS 一 一 亚马逊 云 。 











峙 ; 


(Ea 











大 效 据 








随 看 计算 机 的 速度 越 来 越 快 ， 内存 越 来 越 大 ,数据 的 规模 也 在 不 断 增长 。 事实 上 ,数据 规模 
增长 的 速度 比 计算 速度 的 增长 还 要 快 ， 这 意味 春 它 的 增长 速度 超过 了 我 们 处 理 它 的 能 


什么 是 大 数据 , 什么 又 不 是 呢 ? 这 并 不 容易 说 清 条 ,所 以 我 们 采用 一 个 有 操作 性 的 定义 : 当 
数据 大 到 过 于 元 长 难以 处 理 的 时 候 ， 我 们 就 把 它 叫做 大 数据 。 在 一 些 领 域 里 ， 它 可 能 意味 春 P 级 
别 的 数据 ， 或 者 万 亿 次 的 交易 ; 数据 无 法 放 入 一 个 硬盘 里 。 而 在 其 他 情况 下 ， 数 据 量 可 能 只 是 之 
前 的 1%， 它 只 是 难以 处 理 而 已 。 

基于 从 前 几 半 里 获得 的 一 些 经 验 , 我 们 首 抑 处 理 中 等 数据 ( 不 是 太 大 的 数据 , 但 也 不 是 太 小 
的 数据 )。 在 这 里 我 们 将 使 用 一 个 叫做 Jug 的 程序 包 ， 它 让 我 们 可 以 做 到 以 下 事情 : 

口 将 管道 分 解 为 任务 ; 

D 缓存 (记忆) 中 间 结 

口 利用 多 核 ， 包 括 网 格 中 的 多 人 台 主 机 。 


下 一 步 ， 就 是 处 理 真正 的 “大 数据 ”"; 我 们 将 看 到 如 何 利 用 云 计算 ( 特别 是 亚 蕊 还 Web 服 务 
平台 )。 我 们 将 使 用 为 一 个 Python 包 来 管理 集群 。 





























starcluster 


12.1 了 解 大 数据 


“大 数据 ”并 不 是 指 具体 的 数据 量 ， 既 不 是 样本 的 个 数 ， 也 不 是 数据 所 占用 的 G 字 节 、T 字 节 
或 P 字 节 的 数量 。 它 的 意思 是 说 ; 


口 数据 规模 比 处 理 它 的 能 力 增长 得 更 快 ; 

口 过 去 一 些 效 末 不 错 的 方法 和 扩 术 需要 重 做 ， 因 为 它们 的 扩展 能 力 不 行 ; 
口 你 的 算法 不 能 假设 所 有 效 据守 能 载 人 内 存 ; 

口 管理 数据 本 身 变 成 了 一 项 主要 任务 ; 

口 使 用 计算 机 集群 或 者 多 核 处 理 此 是 必需 品 ， 并 不 是 奢侈 喇 。 
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本 章 将 会 致力 于 解决 这 个 最 后 的 难题 : 如 何 使 用 多 核 处 理 右 (在 同一 台 机 带 上 或 在 不 同 主机 
上 ) 加 速 并 组 织 计算 。 在 其 他 中 每 数据 规模 的 任务 里 ， 这 也 是 很 8 用 处 的 。 





12.2 ”用 Jug 程序 包 把 你 的 处 理 流程 分 解 成 几 个 任务 


通 弟 ,我 们 有 一 个 简单 处 理 流程 : 完 对 初始 数据 进行 预 处 理 , 计算 特征 ,然后 在 生成 的 特征 
上 调用 一 个 机 可 学 习 算法 。 


Jug 是 一 个 程序 包 ， 它 是 由 Luis Pedro Coelho ( 本 书 的 作者 之 一 ) 开发 的 。 它 是 开源 的 ， 适 用 
于 很 多 领域 ,但 它 是 专 为 数据 分 析 问 题 设计 的 。 它 能 同时 解决 几 个 问题 ， 如 下 所 示 。 


口 它 可 以 把 结 末 记录 在 人 磁盘 上 (或 一 个 数据 库 )， 这 意味 厦 ， 如 采 你 让 它 计 算 一 些 曾 经 计算 
过 的 东西 ， 那 它 可 以 直接 从 傍 盘 里 谈 取 结 

口 它 可 以 利用 多 核 处 理 需 ， 或 者 甚至 一 个 集群 里 的 多 台 主 机 。Jug 在 批 处 理 计算 环境 中 也 工 
作 得 非常 不 错 。 批 处 理 计算 环境 就 是 一 个 排队 系统 , 如 便携 式 批 处 理 系统 (Portable Batch 
System, PBS )、 负 载 共 享 系统 (Load Sharing Facility, LSF ) 或 Oracle 网 格 引 擎 ( Oracle Grid 
Engine，OGE， 之 前 叫做 Sun 网 格 引 警 ， 即 Sun Grid Engine )。 本 章 后 面 将 会 用 到 它 ， 届 时 
我 们 将 构建 在 线 集群 并 把 作业 分 发 给 它们 。 


12.2.1 关于 任务 
任务 是 Jug 的 基本 构件 。 一 个 任务 就 是 一 个 函数 以 及 它 的 参数 值 ， 例 如 : 


def double (x): 
return 2*x 


一 个 任务 可 以 是 “用 参数 值 3 调用 doupble, 男 一 个 任务 可 以 是 “用 参数 642 .34 调 用 double”。 
用 Jug， 我 们 可 以 按 如 下 方式 构建 任务 : 




















from Jud import Task 
t1 = Task (double, 3) 
t2 = Task (double, 642.34) 


把 它 保 存在 一 个 名 为 jugfile.py ( 这 是 一 个 正常 的 Python 文件 ) 的 文件 里 。 现 在 ,我 们 运行 jug 
execute 来 执行 任务 。 它 是 在 命令 行 下 执行 的 , 而 不 是 Python 提示 符 ! 我 们 运行 的 是 jug execute， 
而 不 是 Python 的 jugfile.py 文 件 〈 它 什么 也 没 做 )。 


你 可 以 从 任务 中 得 到 一 些 反馈 〈Jug 会 告诉 你 ， 两 个 名 为 “double” 的 任务 正在 运行 )。 再 次 
运行 jug execute， 它 会 告诉 你 它 并 没 做 什么 。 它 也 并 不 需要 做 。 在 这 种 情况 下 ， 我 们 所 得 很 
少 。 但 是 如 有 果 任 务 需 要 花费 很 长 时 间 来 计算 ， 那 这 个 信息 就 会 很 有 用 处 。 


也 许 你 已 经 注意 到 了 了 ， 一 个 名 为 jugfile.jugdata 的 新 目录 出 现在 人 硬盘 上 ， 它 包括 一 些 命 [2 
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名 怪 卉 的 文件 。 这 就 是 记忆 化 绥 存 。 如 末 你 把 它 删 除了 ， 那 jug execute 束 会 再 次 运行 所 有 任务 
(两 个 任务 


区 分 纯 函数 ( 仅仅 接受 输入 返回 结果 ) 和 更 一 般 的 函数 ( 可 以 进行 一 些 操 作 ， 
如 读 文件 、 写 文件 、 获 取 全 局 变量 、 修 改 参 数 ， 或 者 其 他 编程 语言 允许 的 操作 ) 
通常 都 是 有 益处 的 。 一 些 编程 语言 ， 如 Haskell， 甚 至 会 在 语法 上 区 分 纯 函 数 和 
不 纯 的 函数 。 


KW 使 用 Jug， 你 的 任务 将 不 会 是 完全 纯粹 的 。 我 们 甚至 推荐 你 在 任务 中 读 取 数 

一 据 或 写 下 结果 。 然 而 ,获取 和 修改 全 局 变量 却 不 会 有 好 结果 ; 这 些 任 务 可 能 是 以 
任意 顺序 在 不 同 处 理 器 上 执行 的 。 不 过 全 局 常数 是 个 例外 , 但 它 也 可 能 会 让 记忆 
系统 混 消 (如果 数值 在 不 同 次 运行 中 改变 了 )。 类似 的 ， 你 也 不 能 修改 输入 数据 。 
Jug 有 一 个 调试 模式 (用 jug execute-depbug )， 它 会 使 你 的 计算 变 慢 ， 但 当 你 
犯 这 类 错误 的 时 候 ， 它 会 给 出 有 用 的 错误 信息 。 


前 面 这 些 代 码 可 以 工作 ， 但 它 用 起 来 有 一 些 及 烦 ; 你 总 要 重复 构造 Task (function,， 
argument) 。 如 果 使 用 一 点 Python 中 的 魔法 ， 我 们 可 以 让 代码 更 加 目 然 : 








from Jug import TaskGenerator 
from time import sleep 


@TaskGenerator 

def double (x): 
sleep (4) 
return 2*x 


@TaskGenerator 
def add(a, b): 
return a + pb 


@TaskGenerator 
def print final result (oname, value): 
with open(oname, 'w') as output: 
print >>output, "Final result:", value 
= double (2) 
Z = doublel(y) 


y2 = double(7) 
Z2 = double(y2) 
print final result('output.txt', add(z,z2)) 


除了 使 用 TaskGenerator ， 前 面 这 上 段 代 码 就 是 标准 的 Python 代 码 。 然 而， 使 用 
TaskGenerator， 它 实际 上 会 创建 了 一 系列 任务 ， 这 样 就 可 以 利用 多 处 理 需 来 运行 任务 了 。 在 
百人 台 ， 修 饰 可 将 你 的 函数 转换 形式 ,使 得 它们 实际 上 并 没有 被 执行 ， 而 是 创建 了 一 个 任务 。 我 们 
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还 可 以 利用 “我 们 能 把 任务 传递 给 其 他 任务 ”这 个 事实 ， 但 这 样 会 导致 依赖 关系 的 出 现 。 


你 可 能 已 经 注意 到 ， 我 们 在 前 面 的 代码 中 加 入 了 一 些 sleep (4) 的 调用 。 它 模拟 了 长 时 间 运 
算 的 运行 状态 。 人 否则， 这 段 代 码 会 执行 得 很 快 ， 疫 有 地 方 需要 使 用 多 处 理 融 。 


我 们 从 运行 jug status 开始 : 











Task name 


jugfile.add 


jugfile.double 
jugfile.print final result 








现在 我 们 同时 开局 两 个 进程 ( 在 后 台 ): 


jug execute & 
juUug execute & 





我 们 现在 再 次 运行 jug status: 


Task name Waiting Ready Finished Running 


jugfile.add 
jugfile.double 


jugfile.print final result 





我 们 可 以 看 到 ， 两 个 初始 的 double 操 作 正 在 同时 运行 。 大 约 8 秒 之 后 ， 整 个 过 程 将 会 结束 ， 
运行 结果 会 号 人 output.txt 文 件 。 


顺便 说 一 下 ， 如 果 执 行 的 文件 不 是 jugfile.py， 那 么 你 需要 在 命令 行 中 明确 地 指定 : 
Jug execute MYFILE.py 


这 是 不 使 用 jugfile.py 这 个 名 字 的 唯一 缺点 。 


12.2.2” 复 用 部 分 结果 


例如 ， 我 们 想 要 加 入 一 个 新 特征 (或 者 一 组 特征 ) 如 我 们 在 第 10 草 中 所 看 到 的 那样 ， 可 以 
通过 修改 计算 代码 很 容易 地 达到 这 个 上 日 的 。 但 是 , 这 意味 看 需要 重新 计算 所 有 特征 。 这 是 一 种 浪 
费 ， 特 别 是 在 我 们 希望 快速 测试 新 特征 和 新 拉 术 的 时 候 : 


QTaskGenerator 
def new_ features (im): 
import mahotas as mh 
im = mh.imread (fname, as_grey=1) 
es = mh.sobel (im, JjJust filter=1) 
return np.array (I[Inp.dot (es.ravel(), es.ravel())]) 
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hfeatures = as_ array([hfeature(f) for f in filenames]) 
efeatures = as array([new feature(f) for f in filenames|]) 
features = Task (np.hstack, [hfeatures, efeatures]) 

# 学 习 代 码 …… 





现在 你 再 运行 一 次 jug execute。 新 特征 将 会 计算 出 来 ， 而 老 特征 会 从 缓存 中 读 取出 来 。 
逻辑 回归 代码 也 会 再 运行 一 次 ， 因 为 它 的 结 末 取决 于 所 有 特征 ， 而 这 些 特征 现在 已 经 不 一 样 了 。 


这 束 古 Jug 非 弟 强 悍 的 地 方 ; 它 可 以 确保 在 不 浪费 计算 资源 的 情况 下 , 玫 我 们 获得 想 要 的 结 采 。 














12.2.3 ”幕后 的 工作 原理 


Jug 是 怎样 工作 的 ” 在 最 基本 的 层面 上 , 它 非常 简单 ; 一 个 任务 就 是 一 个 孙 数 加 上 它 的 参数 。 
它 的 参数 可 能 是 一 些 数值 , 也 可 能 是 其 他 任务 。 如 果 一 个 任务 包含 力 一 个 任务 , 那么 这 两 个 任务 
之 间 就 有 了 依赖 天 系 ( 在 第 一 个 任务 得 到 结 来 之 前 ， 第 二 个 无 法 运行 )。 


基于 此 ，Jug 对 每 一 个 任务 都 递归 地 计算 一 个 散 列 孙 数 。 散 列 值 就 是 对 整个 计算 进行 的 编码 。 
当 你 运行 jug execute 的 时 候 ， 会 有 一 个 小 循环 ， 如 下 面 的 代码 片段 所 示 : 
for 七 in alltasks: 
if t.has_ not run() and not backend has value(t.hash()): 


Value = 七 .eXxecute ( ) 
save to backend(value, key=t.hash()) 


由 于 加 锁 机 制 的 问题 , 真实 的 循环 要 比 现 在 复杂 得 多 , 但 基本 理念 和 前 面 那 段 代 码 所 示 的 一 样 。 


上 默认 的 后 端 会 把 文件 写 到 磁盘 里 ( 在 一 个 名 为 jugfile.jugdata/ 的 有 趣 目 录 里 )。 我 们 也 可 以 使 
用 万 一 个 采用 了 Redis 数 据 库 的 后 端 。 通 过 适当 的 加 锁 机 制 ， 它 还 允许 多 个 处 理 融 同时 执行 任务 ; 
这 些 处 理 带 会 独立 地 看 得 所 有 任务 , 并 运行 尚未 被 执行 的 任务 ,然后 把 结 琳 写 回 共 至 后 端 。 这 个 
过 程 可 以 在 单机 上 运行 ， 也 可 以 在 多 侣 主机 上 运行 ， 只 要 机 带 可 以 访问 相同 的 后 靖 。( 例如 ,使 
用 网 络 磁 盘 或 者 Redis 数 据 库 。) 本 章 后 面 ， 我 们 将 会 探讨 计算 机 集群 。 但 现在 ， 让 我 们 和 匈 把 注意 
力 集中 在 多 核 处 理 带 上 。 


你 还 可 以 了 解 到 为 什么 要 记录 中 间 结 宁 。 如 来 某 个 任务 的 结 末 在 后 端 已 经 有 了 , 那么 这 个 任 
务 就 不 会 再 次 执行 。 妨 一 方面 ， 如 果 你 对 任务 做 了 改动 ， 即 使 变动 很 小 ( 改变 了 1 个 参数 )， 那 它 
的 散 列 值 也 会 变化 。 因 此 ， 这 个 任务 会 重新 计算 。 此 外 ， 所 有 依赖 于 它 的 其 他 任务 ， 散 列 值 也 会 
相应 改变 ， 它 们 也 会 重新 计算 。 



































12.2.4 ”用 Jug 分 析 数 据 


Jug 是 一 个 通用 的 框 杂 ， 但 在 理想 情况 下 ， 它 适用 于 中 等 规模 的 数据 分 析 。 在 开发 目 己 的 分 
析 流 程 时 ， 你 最 好 把 中 间 结 果 保存 下 来 。 如 果 你 之 前 已 经 做 过 预 处 理 ， 而 这 个 步骤 只 改变 了 你 所 
计算 的 特征 , 那么 你 肯定 不 愿意 再 进行 一 遍 预 处 理 。 如 果 已 经 计算 出 了 特征 , 但 想 要 把 一 些 新 特 
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征 融合 进来 ， 那 么 你 也 不 愿意 重新 计算 一 过 其 他 特征 。 


Jug 是 特地 为 numpy 数 组 而 优化 过 的 。 所 以 ， 无论 何 时 任务 返回 或 接收 numpy 数 组 ， 你 都 可 
以 利用 到 这 种 优化 。Jug 是 这 个 协同 工作 的 生态 系统 中 的 一 部 分 。 

现在 回顾 一 下 第 10 草 , 尤其 是 其 中 如 何 计算 图 像 特 征 那 部 分 。 相信 你 一 定 还 记得 ， 当 时 我 们 
读 取 了 图 像 文 件 ， 计 算 了 特征 ， 把 特征 组 合 在 一 起 ， 进 行 归 一 化 ， 最 后 学 习 了 如 何 创建 分 类 带 。 
接 下 来 ,我们 重新 做 一 届 ， 不 过 ， 这 一 次 使 用 的 是 Jug。 这 一 版 的 优点 在 于 ， 我 们 能 够 在 不 重新 
计算 所 有 原 有 特征 的 情况 下 增加 一 些 新 特征 。 

我 们 从 引入 一 些 程序 库 开始 : 

from JjJug import TaskGenerator 

现在 定义 一 个 任务 生成 带 ， 来 计算 特征 : 


QTaskGenerator 
def hfeatures (fname): 
import mahotas as mh 











import numpy as np 
im = mh.imread (fname, as_grey=1) 


Im mh.stretch (im) 


h = mh.features.haralick (im) 
return np.hstack([h.ptp(0), h.mean(0)]) 


注意 ,我 们 在 函数 里 面 只 引入 了 numpy 和 mahotas。 这 是 一 个 小 优化 ; 用 这 种 方式 ， 只 有 在 
任务 运行 的 时 候 柑 块 才 会 加 载 。 现 在 我 们 设置 图 像 文件 名 ， 如 下 所 示 : 








filenames = glob('dataset/*.jpg') 


我 们 可 以 把 TaskGenerator 应 用 于 任何 函数 ， 甚至 是 在 那些 并 非 我 们 所 写 的 函数 里 ， 例如 


numpy .array: 


import numpy as np 
as_array = TaskGenerator (np.array) 


# 计算 所 有 特征 


features = as array([hfeature(f) for f in filenames]) 


# 获取 标签 数组 
labels = map(label for, f£) 
res = perform cross validation(features, labels) 


QTaskGenerator 
def write result (ofname, value): 
with open(ofname, 'w') as out: 
print >>out, "Result is:", value 
write result('output.txt', res) 


使 用 Jug 的 一 个 很 小 的 不 便 之 处 在 于 ， 我 们 必须 像 前 面 这 个 例子 那样 ， 把 函数 的 结果 输出 到 
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文件 。 这 是 享受 Jug 招 外 方便 时 的 一 点 小 代价 。 


本 草 并 没有 涉及 Jug 的 所 有 特性 ， 但 这 里 有 一 个 总 结 ， 是 关于 我 们 在 正文 里 
没有 涉及 但 非常 有 意思 的 一 些 特 性 。 


。 jug invalidate 这 个 特性 是 说 ,一 个 给 定 函 数 里 的 所 有 结果 ， 都 应 当 
被 看 作 无 效 结果 , 需要 重新 计算 。 那些 依赖 于 无 效 结果 的 下 游 计算 也 要 重 
新 计算 。 
。 jug status -cache 如 果 jug status 耗 费 的 时 间 太 长 ， 可 以 用 --cache 
~ 标志 对 状态 进行 缓存 ,使 之 加 速 。 注 意 ， 它 并 不 能 检测 到 jugfile.py 的 任何 
改动 ， 但 你 可 以 一 直 使 用 --cache --clear 来 删除 缓存 并 重新 启动 。 
。 jug clearnup 这 个 特性 会 把 记忆 缓存 中 的 所 有 额外 文件 都 删 掉 。 这 是 
一 个 垃圾 回收 操作 。 


还 有 一 些 其 他 的 高 级 特性 , 例如 允许 查看 jugfile.py 里 计算 过 的 数值 你 可 以 
读 一 下 Jug 文 档 中 关于 “barriers” 的 使 用 说 明 〈 线 上 地 址 http://jug.rtfd.org )。 


12.3 ”使 用 亚马逊 Web 服务 CAWS ) 


当 你 有 很 多 数据 、 需 要 进行 很 多 计算 的 时 候 ， 你 可 能 会 开始 淘 求 更 多 的 计算 资源 。 亚 马 还 
(aws.amazon.com ) 允许 你 按 小 时 租用 计算 资源 。 因 此 ， 你 可 以 访问 到 大 量 的 计算 资源 ， 而 不 需 
要 预先 购买 大 量 机 大 ( 包括 窒 理 基础 设施 的 费用 )。 在 这 个 市 场 里 还 有 其 他 的 药 争 者 ， 但 亚马逊 
是 最 大 的 玩家 ， 所 以 我 们 在 这 里 从 要 介绍 一 下 。 


亚马逊 Web 服 务 ( Amazon Web Services，AWS ) 是 一 组 庞大 的 服务 。 我 们 只 关注 其 中 的 Elastic 
Compute Cluster ( EC2 ) 服务 。 这 个 服务 提供 给 你 虚拟 机 和 磁盘 空间 ， 它 们 可 以 很 快 被 分 配 和 释放 。 


它 一 共有 三 种 使 用 模式 : 保留 模式 , 你 可 以 预先 支付 , 来 获得 更 廉价 的 按 小 时 的 访问 ; 每 小 
时 固定 率 ; 根据 整体 计算 市 场 (需求 少 的 时 候 ， 费 用 也 低 , 但 需求 多 的 时 候 ， 价钱 就 会 提高 ) 提 
供 变 化 的 比率 。 


如 果 想 测试 的 话 ， 你 可 以 在 免费 层级 ( free tier ) 中 使 用 一 人 台 机 器 。 它 允许 你 试验 一 下 这 个 
系统 ， 熟 悉 一 下 接口 ， 等 等 。 然 而 ， 这 是 一 台 CPU 非 常 慢 的 机 器 。 所 以 ， 我们 并 不 建议 用 它 进行 
过 多 的 计算 。 

在 整体 系统 的 上 层 ， 有 几 种 类 型 的 机 带 ,， 它 们 的 费用 不 同 ; 从 单 核 到 多 核 大 内 存 系统 , 或 者 


甚至 是 图 形 处 理 单元 (Graphical Processing Unit，GPU )。 我 们 之 后 会 看 到 ， 你 可 以 得 到 几 台 比较 
廉价 的 机 大 ， 并 构建 你 自己 的 虚拟 集群 。 你 还 可 以 选择 Linux 或 是 Windows 服 务 右 ， 其 中 Linux 会 
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便宜 一 点 。 在 本 章 里 ， 我 们 是 在 Linux 上 运行 我 们 的 例子 的 ， 但 多 数 东 西 在 Windows 机 需 上 也 可 
以 使 用 。 


这 些 资源 可 以 通过 Web 界 面 来 进行 管理 。 但 也 可 以 在 程序 中 通过 脚本 来 分 配 虚 拟 机 , 设置 磁 
盘 ， 以 及 所 有 Web 界 面 所 能 做 的 操作 。 事 实 上 ， 在 Web 寞 面 频 演 变 化 的 同时 ( 本 书 里 显示 的 一 些 
图 表 在 本 书 出 版 的 时 候 可 能 已 经 过 时 了 )， 编 程 接口 更 为 稳定 。 由 于 服务 的 引入 ， 整 体 构架 也 保 
持 厦 稳定 。 


通过 传统 的 用 户 名 /密码 就 可 以 访问 AWS 服 务 ， 尽 管 亚马逊 把 用 户 名 叫做 公 钥 ， 把 密码 叫做 
私 钥 。 这 样 做 是 为 了 使 访问 Web 接 口 的 用 户 名 和 密码 分 开 。 事 实 上 ， 你 可 以 生成 很 多 公 / 私 钥 对 ， 
并 给 予 它们 不 同 的 权限 。 对 于 比较 大 的 团队 来 说 〈 一 个 能 访问 所 有 Web 界 面 的 高 级 用 户 可 以 为 权 
限 较 少 的 开发 者 创建 密 钥 )， 这 样 做 是 有 益处 的 。 
































亚马逊 区 域 


| Amazon.com 有 几 个 区 域 。 它 们 与 世界 的 物理 区 域 相对 应 : 美国 西海 岸 、 一 
些 亚洲 地 点 、 南 美 区 ， 以 及 欧洲 区 。 如 果 你 想 迁 移 数据 ,最 好 使 迁移 的 出 发 地 和 
一 目的 地 比较 靠近 。 此外， 如 果 你 正在 处 理 用 户 的 信息 ,并 且 要 迁移 到 另 一 个 管辖 
区 去 ， 那 就 可 能 会 出 现 监管 问题 。 在 这 种 情况 下 ,一 定 要 让 一 个 知情 律师 对 欧洲 

客户 数据 迁移 到 美国 的 影响 进行 检查 ; 反之 亦 然 。 


亚马逊 Web 服 务 是 一 个 非常 安 大 的 诛 题 , 市 面 上 有 各 种 可 以 涵 凋 AWS 全 部 内 容 的 书 。 本 章 只 
是 要 给 你 一 个 整体 印象 , 告诉 你 AWS 有 什么 , 能 做 什么 。 基 于 本 书 的 实践 精神 , 我 们 先 看 一 些 例 
子 ， 但 我 们 不 会 穷尽 所 有 可 能 。 


12.3.1 构建 你 的 第 一 台 机 器 


第 一 步 是 到 http://aws.amazon.com/ 创 建 一 个 账号 ， 这 里 的 步骤 跟 其 他 在 线 服务 类 似 。 如 果 你 
想 要 的 是 比 一 人 台 低 端 机 需 更 好 的 机 需 ,， 那 你 需要 一 张 信 用 卡 。 在 这 个 例子 里 ,我 们 会 使 用 一 些 机 
顺 ， 如 果 你 想 在 上 面 运 行程 序 的 话 ， 可 能 要 花费 一 些 钱 。 如 果 你 还 没准 备 掏 出 信用 卡 ,， 那 应 该 先 
阅 旋 本 童 ， 了 解 一 下 AWS 可 以 提供 什么 服务 。 然 后 ,你 可 以 做 出 更 明智 的 选择 , 决定 是 否 要 进行 
注册 。 

一 旦 注册 了 AWS 并 登录 ,你 会 看 到 它 的 控制 台 。 在 这 里 ,你 可 以 看 到 AWS 提 供 的 多 种 服务 : 
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我 们 选择 并 点 击 EC2 ( 最 左 列 的 第 
会 进行 小 修 小 改 ， 所 以 你 看 到 的 可 能 有 此 我 们 现在 看 看 EC2 的 管理 控制 合 ， 如 下 图 所 示 : 
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To start using Amazon EC2 you will want to launch a virtual server, known as an Amazon EC2 instance 
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Rating 

Free Software, pay only for AWS 


licano 


Help Y 


CC 


Feedback 





在 右上 角 , 你 可 以 选择 你 的 区 域 ( 见 美 国 区 域 信息 框 ) 注意 , 你 只 能 看 到 所 选区 域 的 信息 。 
因此 ， 如 来 选择 了 错误 风 区 域 (或 者 在 不 同 区 域 都 有 机 融 在 运行 )， 这 些 内 容 可 能 不 会 出 现 (在 
同 其 他 程序 员 的 聊天 中 得 知 ， 这 似乎 是 使 用 EC2 Web 管 理 控制 合 的 一 个 常见 陷阱 )。 


用 EC2 的 说 法 ， 一 个 正在 运行 的 服务 硕 叫 做 一 个 实例 〈instance )。 所 以 现在 ， 我 们 要 选择 
Launch Instance。 现 在 ， 遵循 典 型 惯例 。 选 择 Amazon Linux 选 项 ( 如 果 你 熟悉 下 列 Linux 发 行 版 
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本 之 一 , 如 Red Hat、SuSe 或 Ubuntu, 可 以 选择 其 中 之 一 , 但 配置 将 会 有 些 不 同 ), 我 们 从 T1 .micro 
类 型 的 一 个 实例 开始 。 这 是 最 小 的 机 右 ， 并 且 是 免费 的 。 接 受 所 有 默认 选项 ， 直 到 进入 下 面 这 个 
输入 密 钥 对 后 出 现 的 界面 : 





Request Instances Wizard 


Public/private key pairs allow you to securely connect to your Instance after It launches ,Fo Tr Windo Sery 
Palr Is required to set and deliver a Secure encrypted password, For Linux server Instances, a key pa alr allo 


sate a key pair, enter a name and click Create & Grd hale Your Key Pair, You will be prompted to save the private key to 
our computer., Note， DU on nly need to generate a Key palr once - not each time you want to deploy an Amazon EC2 Instance, 


® Create a new Key Pair 
1.Enter a name for your key pair:* (e.g,, jdoekey) 


2. Click to create your key pair:* 


袁 Create & Download your Key Pair 


Save this file in a place that you w 
mber, You can use this key pair to 
other instances In the future or visit 
Pairs page to create or manage 
X1S istint g on 


Proceed without a Key Pair 





我 们 选择 名 字 awskeys 作 为 密 钥 对 。 然 后 点 击 Create & Download your Key Pair 按 钮 ， 下 载 
awskeys.pem 文 件 。 这 是 Secure Sheel (SSH)， 将 使 你 可 以 登录 云 机 需 。 要 把 文件 保存 在 安全 的 
地 方 ! 接 有 完 剩 下 的 默认 选项 ， 你 的 实例 就 局 动 了 。 


现在 你 需要 en 等 实例 出 现 。 最终， 这 个 实例 会 用 绿色 显示 ,状态 为 “运行 中 ”。 
右 击 并 nn ， 你 会 知道 如 何 连 接 。 下 面 是 一 个 标准 SSH 命 令 ; 











ssh -i awskeys.pem ec2-user@ec2-54-244-194-143.us-west-2.compute. 
amazonaws .com 


因此 ,我 们 会 调用 ssh 命 令 ， 并 把 之 前 下 载 的 密 钥 文 件 传 进去 ,作为 号 份 信息 ( 用 -i 选项 ), 
我 们 Ys 以 用 户 ec2-user 登 录 地 址 为 ec2-54-244-194-143 .us-west-2.conompute. 
amazonaws .com 的 机 各 。 当 然 ， 这 个 地 址 跟 你 的 不 同 。 如 末 在 实例 中 选择 为 一 个 版 本 ， 用 户 名 
也 会 改变 。 不 管 怎样 ， Web 界 面 会 给 你 正确 的 信息 。 


最 后 ， 如 果 是 在 一 个 Unix 风 格 的 操作 系统 上 ( 包括 Mac OS ) 运行 ， 你 需要 通过 下 面 的 代码 
调整 它 的 权限 : 





chmod 600 awskeys .pem 


这 个 命令 会 给 当前 用 户 设 置 读 / 写 权限 。 否 则 ，SSH 会 给 你 一 个 令 人 厌恶 的 警告 。 
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现在 ， 你 应 该 可 以 登录 主机 了。 如 夹 一 切 顺 利 ， 你 会 看 到 下 面 的 标语 : 


Amazon Linux AMI 


https://aws.amazonN.com/amazoN- linUx-ami/2013.03-release-notes/ 
There are 1 security Update(s) out of 3 total Update(s) available 
Run "sudo yum Update" to apply all updates . 





这 是 一 个 常规 的 Linux 框 , 你 拥有 sugo 权 限 ; 如 采 在 前 面 加 上 suao， 你 就 可 以 像 高 级 用 户 那 
样 运行 任何 命令 。 你 可 以 运行 更 新 ( update ) 命令 让 机 天 加 速 。 


1. 在 亚马逊 Linux 上 安装 Python 包 


如 果 你 要 使 用 为 一 个 分 发 版 本 ,可 以 用 为 一 个 分 发 版 本 的 知识 来 安装 Python、NumPy 或 者 其 
他 。 在 这 里 ， 我 们 采用 的 是 标准 亚马逊 分 发 版 本 。 从 安 竣 几 个 基本 的 Python 包 开 始 ， 如 下 所 未 : 

















sudo yum -y install python-devel python-dev python-pip numpy scipy 
python-matplotlib 


要 对 mahotas 进 行 编译 ， 还 需要 一 个 C++ 编译 需 : 





sudo yum -y install 9cc-C++ 


在 这 个 系统 里 ，pip 被 安装 成 python-pip。 为 方便 起 见 ， 我 们 用 pip 来 更 新 它 目 己 。 然 后 我 
们 用 pip 安 装 必要 的 程序 包 : 


sudo pip-python install -U pip 
sudo pip install scikit-learn jug mahotas 


在 这 里 ， 你 可 以 像 使 用 pip 那 样 安装 任何 其 他 程序 包 。 

2. 在 我 们 的 云 主 机 上 运行 Jug 

现在 ， 我 们 可 以 去 下 载 第 10 草 里 的 数据 和 代码 了 。 如 下 所 不 : 
wget FIXME-LET'S-BUILD-A-TAR-GZ-PACKAGE 


tar xzf chapter10 .七 ar .9Z 
cd chapter10 


然后 ， 进 行 如 下 操作 : 








jug execute 


它 工 作 得 还 可 以 ， 但 我 们 需要 等 很 长 时 间 才 能 得 到 结果 。 我 们 的 免费 级 机 楷 (t1 .micro 类 
型 ) 是 单 核 的 ， 不 是 很 快 。 所 以 我 们 要 升级 机 融 。 

我 们 回 到 EC2 控 制 台 ， 在 运行 实例 上 右 击 ， 会 出 现 一 个 弹 窗 。 我 们 需要 先 停 挥 这 个 实例 。 在 
虚拟 机 上 停止 一 个 实例 的 运行 就 如 同 把 它 的 电源 关 择 。 你 可 以 在 任何 时 候 俘 止 你 的 机 釉 。 这 时 ， 
你 不 再 为 它们 承担 费用 ( 你 仍然 在 使 用 磁盘 空间 ， 这 也 是 有 代价 的 ， 会 分 开 计 算 费 用 )。 




















12.3 使 用 亚马逊 Web 服务 ( AWS ) 199 








一 旦 你 的 机 器 停止 了 ，change instance type 选 项 就 会 出 现 。 你 可 以 选择 一 个 更 强 有 力 的 实 
例 ， 例 如 ， 一 个 c1.xlarge 实 例 ， 它 是 8 核 的 。 这 个 机 需 仍 然 处 于 关闭 状态 ， 你 需要 重新 打开 它 
(这 跟 重 局 机 需 是 一 样 的 )。 


AI AWS 提 供 了 几 种 价钱 不 同 的 实例 类 型 。 由 于 引入 了 更 强 有 力 的 选项 ， 信 息 经 
常会 不 断 修正 ， 同 时 价格 也 会 发 生变 化 ， 所 以 在 本 书 里 我 们 没 法 给 你 很 多 具体 细 
节 (一 般 来 说 会 变 得 更 便宜 );， 然 而 ， 你 可 以 在 亚马逊 的 网 站 上 找到 最 新 的 信息 。 





我 们 需要 等 待 实例 再 次 出 现 。 一 旦 它 出 来 了 ， 碳 击 Connect 获 得 连接 信息 。 几 乎 可 以 肯定 ， 
链接 信息 已 经 改变 了 上。 在 你 更 改 实例 类 型 的 时 候 ， 你 的 实例 会 获得 一 个 新 分 配 的 地 址 。 








六 你 可 以 用 亚马逊 的 Elastic IPs 功 能 给 实例 分 配 一 个 固定 IP。 你 可 以 在 EC2 控 制 
台 的 左边 看 到 这 个 选项 。 


通过 使 用 8 核 机 带 ， 你 可 以 同时 运行 8 个 jug 进 程 ， 如 下 面 这 些 代码 所 示 : 


juUug execute & 
]ug execute & 
(repeat to get 8 jobs going) 


用 jug status 可 以 查看 到 8 个 作业 是 否 在 运行 。 完 成 作业 之 后 ( 现在 应 该 很 快 就 可 以 实现 )， 
你 可 以 集 止 机 如 ,并 再 次 降级 为 t1 .micro 实 例 ， 以 市 省 花 销 ; 微型 实例 是 免费 的 ， 而 这 个 特大 号 
的 机 太 的 价钱 是 每 小 时 0.58 美 元 ( 这 是 2013 年 4 月 的 价钱 一 一 到 AWS 网 站 上 可 以 看 到 最 新 信息 )。 











12.3.2 ”用 starcluster 自 动 创建 集群 


正 像 你 所 了 解 到 的 ， 我们 可 以 通过 Web 界 面 创 建 机 各 , 但 你 很 快 就 会 发 现 ， 这 个 操作 单调 村 
燥 ， 而 且 容 易 出 错 。 幸 运 的 是 ， 亚 马 逊 有 一 个 API。 你 可 以 写 脚 本 自动 执行 之 前 讨论 过 的 所 有 操 
作 。 更 好 的 是 , 其 他 人 已 经 开发 了 一 些 工具 。 你 用 AWS 要 进行 的 很 多 过 程 部 可 以 用 这 些 工具 日 动 
化 执行 。 


MIT 的 一 个 团队 正好 开发 了 这 样 一 个 工具 ， 叫 做 starcluster。 它 恰好 是 一 个 Python 包 ， 所 以 你 
可 以 用 Python 工具 把 它 安 闻 上 。 

















sudo pip install starcluster 
你 可 以 在 亚马逊 主机 上 ， 或 你 的 本 地 机 带 上 运行 这 个 代码 。 这 两 种 方式 都 行 。 


我 们 需要 指定 我 们 的 集群 是 什么 样 的 。 通 过 编辑 配置 文件 即 可 实现 。 下 面 的 代码 生成 了 一 个 
模板 配置 文件 : 


starcluster help 
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然后 ， 我 们 选择 选项 在 -/.starcluster/config 中 生成 配置 文件 。 做 完 之 后 ,我 们 就 可 以 手动 编辑 
这 个 文件 。 


不 同 的 密 钥 
在 使 用 AWS 的 时 候 ， 有 三 种 密 钥 。 


口 标准 用 户 名 /密码 组 合 ， 用 于 登录 网 站 。 
口 SSH 窗 钥 系统 ， 它 是 一 个 用 文件 实现 的 公 / 私 钥 系 统 ; 通过 你 的 公 钥 ， 可 
< 以 登录 远程 主机 。 
A 口 AWS 访 问 钥 / 密 钥 系统 ， 这 只 是 某 种 形式 的 用 户 名 /密码 。 它 允许 你 在 同一 
个 账户 下 拥有 多 个 用 户 ( 包括 为 每 个 用 户 添 加 不 同 权 限 , 但 本 书 里 不 会 涵 


盖 这 部 分 高 级 特性 )。 


要 想 查 看 访问 / 私 钥 ， 我们 回 到 AWS 控 制 台 ， 在 右上 角 点 击 我 们 的 名 字 ; 然 
后 选择 Security Credentials。 现 在 ， 屏 幕 的 下 方 应 该 会 出 现形 如 AAKIIT7HHF 
6IUSN3OCAA 的 访问 钥 ， 本 章 将 以 它 为 例 。 


现在 编辑 配置 文件 。 这 是 一 个 标准 的 .ini 文 件 : 一 个 文本 文件 ， 每 个 部 分 以 方 括号 和 它们 
的 名 字 开 始 。 选 项 的 格式 是 name=value。 第 一 部 分 是 aws info， 你 应 该 把 你 的 密 钥 粘贴 过 来 : 





[aws infol] 
AWS_ACCESS KEY_ID = AAKIIT/HHF6IUSN3O0CAA 
AWS_SECRET ACCESS KEY = <your secret key> 


现在 来 到 一 个 有 趣 的 部 分 : 定义 一 个 集群 。starcluster 人 允许 你 定义 任意 多 个 不 同 的 集群 。 文 
件 的 开始 有 一 个 叫做 smallcluster 的 集群 。 它 在 cluster smallcluster 部 分 里 定义 。 把 它 
编辑 为 : 

[cluster myclusterl] 


KEYNAME = mykey 
CLUSTER_SIZBE = 16 


它 把 节点 个 数 从 默认 的 2 改 为 16。 我 们 还 可 以 指定 每 个 节点 的 实例 类 型 和 初始 映像 〈( 记 住 ， 
映像 是 指 你 使 用 的 是 什么 操作 系统 ， 安 装 了 什么 软件 )。starcluster 有 一 些 预 设 的 映像 ， 但 你 也 可 
以 构建 自己 的 映像 。 


我 们 需要 创建 一 个 新 的 ssh 密 钥 ， 如 下 所 示 : 

















starcluster createkey mykey -Oo .ssh/mykey.rsa 


现在 我 们 已 经 配置 了 一 个 16 方 友 的 集群 ， 并 设置 了 密 钥 。 让 我 们 尝试 一 下 。 








starcluster start mycluster 
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这 个 操作 可 能 需要 几 分 钟 ， 因 为 它 要 分 配 17 合 新 机 带 。 为 什么 是 17 侣 机 需 ， 而 我 们 的 集群 只 
有 16 个 节点 ? 这 是 因为 会 有 一 个 主 节 点 。 所 有 这 些 节 点 都 使 用 同一 个 文件 系统 , 所 以 在 主 节 点 上 
创建 的 任何 东西 ， 也 可 以 在 从 属 市 点 上 看 到 。 这 也 意味 着 我 们 可 以 在 这 些 集群 上 应 用 Jug。 


这 些 集群 可 以 按照 你 想 要 的 方式 进行 使 用 , 但 它们 都 预 装 了 一 个 作业 队列 引擎 , 这 种 方式 对 
于 批 处 理 作业 比较 理想 。 它 的 使 用 过 程 很 简单 。 


(1) 登录 主 帮 点 。 

(2) 在 主 节 点 上 准备 好 你 的 脚本 〈 更 好 的 方式 是 ， 在 之 前 就 把 脚本 准备 好 )。 

(3) 把 作业 提交 到 队列 。 一 个 作业 可 以 是 任何 一 个 Unix 命 令 。 调 度 程 序 会 寻找 空闲 节点 来 运 
行 你 的 作业 。 

(4) 等 得 作业 结 

(5) 从 主 和 点 上 旋 取 结果 。 你 现在 还 可 以 杀 抒 所 有 从 属 贡 点 ， 以 节约 费用 。 在 任何 时 候 都 不 
忘记 你 的 系统 的 运行 是 长 期 的 。 否 则 ， 这 会 花费 很 大 ( 意思 是 美元 和 美 分 )。 


我 们 可 以 用 一 个 命令 登录 到 主 节 点 上 : 












































starcluster sshmaster mycluster 


我 们 也 可 以 看 到 我 们 之 前 用 ssh 命 令 生成 的 机 融 地 址 ， 但 在 使 用 前 面 那个 命令 的 时 候 ， 地 址 
是 什么 并 不 重要 ， 因为 starc luster 已 经 在 背后 把 这 些 都 处 理 好 了 0 


正如 我 们 前 面 所 说 的 ，starcluster 为 集群 提供 了 一 个 批 处 理 排 队 系 统 ; 你 可 以 与 脚本 的 
行 你 的 操作 ， 把 作业 放 在 队列 里 ， 这 些 作 业 就 会 在 空闲 节点 上 运行 。 

在 这 一 点 上 , 你 需要 在 集群 上 重复 安装 必要 的 程序 包 。 如 末 这 和 是 一 个 真实 项 目 ,我 们 可 以 创 
建 一 个 脚本 来 执行 所 有 这 些 初始 化 工作 ， 但 由 于 这 是 一 个 教程 ， 你 只 需要 再 初始 化 一 次 。 

我 们 可 以 像 以 前 一 样 使 用 相同 的 jugfile .py 系统 ,但 现在 ,我 们 会 在 集群 中 进行 调度 ， 而 
不 是 直接 在 主 亨 点 上 运行 。 首先 ， 写 一 个 很 蚀 单 的 脚本 : 

















#!1/usr/bin/env bash 
jug execute jugfile.py 


用 run-jugfile. sh 调用 它 ， 并 用 chmod + 文 run-jugfile. sh 赋予 它 可 执行 权限 : 





For C in 'seq 16'; do qsub run-jugfile.sh; done 


这 会 创建 16 个 任务 , 每 个 都 会 运行 zuan-jugfile. sh 脚本 调用 Jug。 你 仍然 可 以 使 用 主 节 点 。 
需要 特别 强调 的 是 ,你 可 以 在 任何 时 候 运 行 jug status 查 看 计算 状态 。 事 实 上 ，Jug 束 是 在 这 种 
环境 下 开发 出 来 的 ， 所 以 它 在 这 个 环境 下 工作 得 很 好 。 


最 后 ， 计 算 结束 ， 可 以 把 所 有 节点 都 删 掉 了 。 但 我 们 一 定 要 把 预期 的 结果 保存 在 某 个 地 方 ， 
并 执行 下 述 命令 : 
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starcluster terminate mycluster 

注意 , 终止 操作 将 会 销毁 文件 系统 中 的 内 容 以 及 所 有 运行 结 采 。 当 然 ,， 这 个 上 默认 设置 是 可 以 
更 改 的 。 你 可 以 让 集群 把 结果 写 在 一 个 不 是 由 starcluster 分 配 并 销毁 的 而 你 又 可 以 访问 的 文件 系统 
里 。 事 实 上 ， 这 些 工具 的 灵活 性 非常 大 。 不 过 这 些 高 级 操作 并 不 适合 在 本 章 里 展开 。 


starcluster 有 一 个 优秀 的 在 线 文 档 ， 见 http://star.mit.edu/cluster/， 你 可 以 读 到 关于 这 个 工具 的 
更 多 信息 。 我 们 在 这 里 只 看 到 了 一 小 部 分 功能 ， 只 使 用 了 默认 的 设置 。 

















12.4 ”小 结 


我 们 看 到 了 如 何 使 用 Jug 一 一 一 个 小 型 Python 框架 来 管理 那些 利用 了 多 核 或 多 主机 的 计 
算 。 尽 管 这 个 框架 是 通用 的 ,但 它 是 特地 为 解决 其 作者 (也 是 本 书 作 者 之 一 ) 的 数据 分 析 需 求 而 
构建 的 。 因 此 ， 它 有 一 些 方面 很 适合 Python 机 融 学 习 环境 。 


我 们 还 学 习 了 AWS 一 一 亚马逊 云 。 使 用 云 计 算 通 常会 比 构建 内 部 计算 环境 能 更 有 效 地 利用 
资源 。 如 果 需 求 不 是 固定 的 而 是 变化 的 , 那 更 是 如 此 。starcluster 其 至 允许 集群 在 你 开启 更 多 作业 
的 时 候 目 动 扩 展 ， 在 它们 终止 的 时 候 收 缩 。 


这 是 本 书 的 结尾 ,我们 已 经 走 了 很 长 一 段 路 。 我 们 了 解 到 当 有 标注 数据 的 时 候 如 何 进行 分 类 ， 
以 及 当 没 有 的 时 候 如 何 进行 聚 类 。 我们 学 习 了 关于 降 维 和 主题 模型 的 知识 , 它们 对 大 规模 数据 集 
是 有 意义 的 。 在 本 书 的 最 后 儿童 ， 我 们 看 了 一 些 具体 应 用 ， 例 如 音乐 体裁 分 类 和 计算 机 视觉 。 对 
于 实现 ,我 们 主要 依赖 于 Python。 这 个 语言 拥有 一 个 建立 在 NumPy 之 上 的 ,不 断 增 长 的 数值 计算 
程序 包 扩 展 生态 系统 。 在 任何 可 能 的 时 候 ， 我 们 都 会 使 用 Scikit-learn， 但 也 会 在 必要 的 时 候 使 用 
其 他 程序 包 , 基于 它们 都 使 用 相同 基础 数据 结构 的 事实 ,我 们 可 以 无 颖 混合 来 日 于 不 同 包 的 功能 。 
所 有 在 本 书 里 使 用 的 程序 包 都 是 开源 的 ， 可 以 用 于 任何 项 目 。 


目 然 ， 我 们 无 法 泣 广 机 带 学 习 的 所 有 话题 。 所 以 ， 在 附录 里 ,我们 提供 了 一 系列 精 选 资源 ， 
带 助 谈 者 学 习 更 多 机 可 学 习 方 面 的 知识 。 















































在 本 书 的 最 后 ， 我 们 花 一 点 时 间 看 看 其 他 对 该 者 有 用 的 知识 。 

要 学 习 更 多 关于 机 带 学 习 的 知识 ,还 有 很 多 优秀 资源 〈 太 多 了 , 没 法 在 这 里 泣 普 所 有 ) 可 供 
参考 。 我 们 的 列表 只 代表 其 中 一 小 部 分 抽样 有 仿 差 的 资源 , 这 些 资 源 在 本 书 撰写 时 我 们 认为 是 最 
好 的 。 








A.1 在 线 资源 


Andrew Ng 是 斯 坦 福 大 学 的 一 位 教授 , 他 开办 了 一 个 机 带 学 习 在 线 诛 程 , 叫做 大 规模 在 线 开 
放 课 堂 (Massive Open Online Course，MOOC )， 网 址 是 Coursera ( http://www.coursera.org )。 它 是 
免费 的 ,但 你 需要 投入 大 量 时 间 和 精力 (投资 回报 率 绝 对 有 保证 ! )。 


A.2 参考 书 


本 书 者 重 于 机 禹 学 习 实 践 。 我 们 没有 介绍 算法 或 理论 背后 的 思考 方法 。 如 拉 你 对 机 各 学 习 这 
部 分 内 容 感 兴趣 ， 我 们 推荐 Pattern Recoenition and Machine Learning ( Christopher M. Bishop ， 
Springer ). 这 是 这 个 领域 内 一 个 经 典 的 介绍 性 读本 , 它 会 市 你 了 解 本 书 所 使 用 的 大 多 数 算法 的 本 质 。 


如 果 你 想 超越 介绍 性 质 的 内 容 ， 学 习 一 下 数学 细 季 ， 那 么 Macjpipe Learning: 4 Probabilistic 
Perspective( K. Murphy，The MIT Press ) 是 一 个 很 好 的 选择 。 它 内 容 新 新 ( 出 版 于 2012 年 )， 包 
含 了 ML 研究 的 前 沿 内 容 ， 约 有 1000 页 。 你 还 可 以 把 它 当 做 一 本 参考 书 ， 因 为 它 几 乎 涵盖 了 机 央 
学 习 方 方面 面 的 知识 。 








A.2.1 问答 网 站 
下 面 是 两 个 有 关机 器 学 习 的 问答 网 站 : 


口 MetaOptimize ( http://metaoptimize.com/qa ) 是 一 个 机 需 学 习 问 答 网 站 ， 有 很 多 知识 渊博 











204 附录 A 更 多 机 器 学 习 知 识 


的 研究 者 和 实践 者 在 里 面 互动 讨论 ; 
口 Cross Validated ( http://stats.stackexchange.com ) 是 一 个 通用 统计 学 问答 网 站 ,通常 也 会 
涉及 机 禹 学习 方面 的 问题 。 


正如 本 书 开 头 所 提 到 的 那样 ， 如 果 你 对 本 书 的 某 个 部 分 有 疑问 ， 可 以 随时 登录 TwoToReal 
( http://www.twotoreal.com ) 进行 提问 。 我 们 会 尽快 帮 你 解答 。 














A.2.2 博客 
下 面 是 一 个 明显 不 够 全 面 ， 但 会 让 机 器 学 习 从 业 人 员 感 兴趣 的 博客 列表 。 


口 机 楷 学 习 理 论 ，http://hunch.net 








@ 这 是 John Langford 的 博客 ( 他 是 Vowpal Wabbit http://hunch.net/~vw/ 一 一 背后 的 主导 
者 )， 访客 也 可 以 发 帖 ; 
四 于 均 速 率 大 约 是 每 月 一 帖 。 帖 子 的 内 容 比较 理论 化 。 提 供 了 脑筋 急 转 弯 式 的 附加 价值 。 
口 文本 与 数据 挖掘 实用 方法 ，http:/textanddatamining.blogspot.de 


时 平均 速 卒 是 每 月 一 帖 ， 非 第 实用 ， 总 会 有 一 些 让 人 感到 慰 厅 的 方法 。 











口 Edwin Chen 的 博客 ，http://blog.echen.me 
四 平均 速 座 是 每 月 一 帖 ， 提 供 了 一 些 更 实用 的 话题 。 











口 机 需 学 习 ，http:W/www.machinedlearnings.com 


四 平均 速率 每 月 一 帖 ， 提 供 了 一 些 更 实用 的 话题 ， 通 肖 围 绕 大 数据 学 习 。 








D FlowingData, http://flowingdata.com 
a 平均 速率 每 天 一 帖 ， 主 要 是 解决 一 些 统计 学 问题 。 





DQ Normal deviate, http://normaldeviate.wordpress.com 


四 平均 速率 是 每 月 一 帖 ， 主 要 是 对 实际 问题 理论 方面 的 讨论 。 人 尽管 这 个 博客 的 内 容 更 多 
是 关于 统计 学 的 ,但 帖子 经 常会 跟 机 溃 学 习 相 关 。 








口 简单 统计 ，http://simplystatistics.org 
@ 每 月 都 会 发 表 一 些 帖 子 ， 专 注 于 统计 学 和 大 数据 。 
口 统计 学 建 模 ， 因 果 推 理 和 社会 科学 ，http://andrewgelman.com 


qm 每 天 一 贴 ， 当 作者 用 统计 学 原理 指出 流行 媒体 的 缺点 的 时 候 ， 很 有 趣味 。 
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A.2.3 ”数据 资源 


如 果 你 想 试 验 一 下 算法 ， 可 以 从 加 州 大 学 欧文 分 校 (UCI ) 的 机 器 学 习 知 识 库 ( Machine 
Learning Repository ) 获取 到 很 多 数据 集 。 你 可 以 在 http://archive.ics.uci.edu/ml 找 到 它 。 





A.2.4 竞争 日 蔓 加 剧 


一 个 学 习 机 融 学 习 的 好 方法 就 是 进行 比赛 。Kaggle (http:/www.kaggle.com ) 是 一 个 进行 ML 
赛 的 集 市 ， 在 介绍 部 分 我 们 已 经 提 过 它 了 。 在 这 个 网 站 里 ， 你 可 以 找到 一 些 不 同类 型 的 元 赛 ， 
党 还 会 有 奖金 。 


这 种 有 监督 学 习 苋 赛 儿 乎 都 是 采用 如 下 方式 : 


口 你 (任何 其 他 参与 者 ) 可 以 访问 市 标签 的 训练 数据 和 测试 数据 〈 没 有 标签 ); 
口 你 的 任务 是 把 对 测试 数据 的 预测 提交 上 去 ; 
口 苋 赛 结束 之 后 ， 得 到 最 高 正确 率 的 人 获胜 。 获 得 的 奖品 从 采 誉 到 现金 都 有 。 


当然 , 最 得 奖品 固然 不 错 , 即使 没 最 得 , 仅仅 参与 一 下 也 不 错 , 也 可 以 积累 很 多 有 用 的 经 验 。 
所 以 ， 敬 请 期 每 ,特别 是 在 苋 赛 结束 之 后 ,参与 者 们 还 会 在 论坛 里 分 至 他 们 的 方法 。 在 大 多 数 时 
间 里 ， 顾 得 胜利 并 不 是 因为 开发 出 了 一 个 新 算法 ; 它 往 往 在 于 巧妙 地 预 处 理 、 归 一 化 ,以 及 组 合 
现 有 方法 。 








-这 
到 
通 
































A.3 还 剩 下 什么 


我 们 并 没有 涵盖 Python 中 每 一 个 机 器 学 习 程 序 包 。 由 于 空间 有 限 ， 我 们 选择 专注 于 
scikit-learn。 然 而 ， 这 里 还 有 其 他 选项 ， 我 们 列 出 了 一 些 。 


口 数据 处 理 模块 化 工具 箱 ( Modular toolkit for Data Processing，MDP )， 见 http:/mdp-toolkit. 
sourceforge.net。 

口 Pybrain， 册 http://pybrain.org。 

口 机 器 学 习 工 具 箱 (MILK )， 见 http://luispedro.org/software/milk: 


昌 这 个 工具 包 是 由 本 书 的 一 个 作者 开发 出 来 的 ， 它 涵盖 了 一 些 未 包含 在 Scikit-learn 中 的 算 
法 和 技术 。 


个 更 普 志 的 任 源 是 http:/mloss.org ， 这 是 一 个 开源 机 融和 学 习 软 件 知 识 库 。 就 像 经 铅 发 生 在 
其 他 知识 库 的 情况 一 样 ， 这 些 软件 的 质量 差异 很 大 ,有 很 优秀 的 ,不 断 维 护 的 软件 ， 也 有 一 次 性 
的 项 目 , 还 有 被 废弃 的 软件 。 所 以 值得 检查 一 下 你 的 问题 是 不 是 非常 具体 ， 有 没有 更 通用 的 软件 
包 来 解决 这 个 问题 。 
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A.4 小结 


现在 真 要 到 结束 的 时 候 了 。 项 望 你 能 喜欢 本 书 ， 并 已 做 好 准备 开始 机 带 学 习 之 旅 。 


我 们 还 希望 ,你 已 经 学 到 了 周密 测试 你 的 方法 的 重要 性 ,特别 是 要 使 用 正确 的 交叉 验证 方法 ， 
以 及 不 要 给 出 训练 集 上 的 测试 结果 ， 因 为 它 是 对 真实 效果 的 过 局 估计 。 
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如 今 ， 机 器 学 习 正 在 互联 网 上 下 掀起 热潮 ， 而 Python 则 是 非常 适合 开发 机 器 学 习 系 统 的 一 门 优秀 语言 。 作 为 动态 
语言 ， 它 支持 快速 探索 和 实验 ， 并 且 针对 Python 的 机 器 学 习 算 法 库 的 数量 也 与 日 俱 增 。 本 书 最 大 的 特色 ， 就 是 结合 实 
例 分 析 教 会 读者 如 何 通过 机 器 学 习 解 决 实际 问题 。 

本 书 将 向 读者 展示 如 何 从 原始 数据 中 发 现 模式 ， 首 先 从 Python 与 机 器 学 习 的 关系 讲 起 ， 再 介绍 一 些 库 ， 然 后 就 开 
始 基于 数据 集 进行 比较 正式 的 项 目 开 发 了 ， 涉 及 建 模 、 推 荐 及 改进 ， 以 及 声音 与 图 像 处 理 。 通 过 流行 的 开源 库 ， 我 们 
可 以 掌握 如 何 高 效 处 理 文本 、 图 片 和 声音 。 同 时 ， 读 者 也 能 掌握 如 何 评估 、 比 较 和 选择 适用 的 机 器 学 习 技 术 。 


举 几 个 例子 ， 我 们 会 介绍 怎么 把 StackOverflow 的 回答 按 质 
量 高 低 进行 分 类 ， 怎 么 知道 某 个 音乐 文件 是 副 士 风格 ， 还 是 重 
金属 摇滚 风格 。 另 外 ， 本 书 还 涵盖 了 主题 建 模 、 购 物 习 性 分 析 
及 云 计 算 等 高 级 内 容 。 总 之 ， 通 过 学 习 本 书 ， 读 者 可 以 掌握 构 
建 自己 所 需 系 统 的 各 方面 知识 ， 并 且 学 以 致 用 ， 解 决 自 己 面临 
的 现实 问题 。 

读者 只 要 具有 一 定 的 Python 编程 经 验 ， 能 够 自己 安装 和 使 
用 开源 库 ， 就 足够 了 ， 即 使 对 机 器 学 习 一 点 了 解 都 没有 也 没 关 
系 。 本 书 不 会 讲 机 器 学 习 算法 背后 的 数学 。 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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